#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
最近的研究表明,Transformer
具有强大的远程关系建模的能力,但在捕获高频局部信息方面却无能为力。为了解决这个问题,本文提出了 Inception Transformer
,简称 iFormer
,可以有效地学习视觉数据中包含高频和低频信息的综合特征。
具体来说,本文设计了一个 Inception mixer
将卷积
和最大池化
的优势移植到 Transformer
中捕获高频信息。与最近的mixer
不同,Inception mixer
通过通道拆分机制带来更高的效率,同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixer
和low-frequency mixer
可以灵活地对分散在其中的判别信息进行建模。
考虑到Low-level Layer
在捕捉高频细节方面发挥更多作用,而High-level Layer
在建模低频全局信息方面发挥更多作用,作者进一步引入frequency ramp structure
,即逐渐减小送到high-frequency mixer
的维度,并增加low-frequency mixer
的维度(一句话就是ResNet的层次设计思想),可以有效地权衡不同层的高频和低频分量。
在一系列视觉任务上对 iFormer
进行了基准测试,并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如,iFormer-S
在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率,比 DeiT-S
高出 3.6%,在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型 Swin-B
(83.3%)。
Transformer
席卷了自然语言处理 (NLP) 领域,在许多 NLP 任务(例如机器翻译和问答)中实现了惊人的高性能。这在很大程度上归功于其强大的Self-Attention
机制对数据中的长期依赖关系进行建模的能力。它的成功促使研究人员研究它对计算机视觉领域的适应,而 Vision Transformer
(ViT
) 是先驱。该架构直接继承自 NLP,但应用于以原始图像块作为输入的图像分类。后来,许多 ViT
变体被开发出来,以提高性能或扩展到更广泛的视觉任务,例如目标检测和分割。
ViT
及其变体在视觉数据中具有很强的捕获低频的能力,主要包括场景或对象的全局形状和结构,但对于学习高频的能力不是很强,主要包括局部边缘和纹理。这可以直观地解释:Self-Attention
是 ViTs
中用于在非重叠 patch tokens之间交换信息的主要操作,也是一种全局操作,相对于高频局部信息Self-Attention
更能捕获数据中低频的全局信息。
论文题目:Inception Transformer
详细解读:https://www.aminer.cn/research_report/62bd58597cb68b460fdf5dadhttps://www.aminer.cn/research_report/62bd58597cb68b460fdf5dad
AMiner链接:https://www.aminer.cn/?f=cs