#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？

wwwsxn

于 2022-06-30 16:48:32 发布

阅读量399

点赞数

分类专栏：深度学习文章标签：大数据

原文链接：https://www.aminer.cn/research_report/62bd58597cb68b460fdf5dad

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？

最近的研究表明，Transformer 具有强大的远程关系建模的能力，但在捕获高频局部信息方面却无能为力。为了解决这个问题，本文提出了 Inception Transformer，简称 iFormer，可以有效地学习视觉数据中包含高频和低频信息的综合特征。
具体来说，本文设计了一个 Inception mixer将卷积和最大池化的优势移植到 Transformer 中捕获高频信息。与最近的mixer不同，Inception mixer通过通道拆分机制带来更高的效率，同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixer和low-frequency mixer可以灵活地对分散在其中的判别信息进行建模。
考虑到Low-level Layer在捕捉高频细节方面发挥更多作用，而High-level Layer在建模低频全局信息方面发挥更多作用，作者进一步引入frequency ramp structure，即逐渐减小送到high-frequency mixer的维度，并增加low-frequency mixer的维度（一句话就是ResNet的层次设计思想），可以有效地权衡不同层的高频和低频分量。
在一系列视觉任务上对 iFormer 进行了基准测试，并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如，iFormer-S 在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率，比 DeiT-S 高出 3.6%，在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型 Swin-B (83.3%)。

Transformer 席卷了自然语言处理 (NLP) 领域，在许多 NLP 任务（例如机器翻译和问答）中实现了惊人的高性能。这在很大程度上归功于其强大的Self-Attention机制对数据中的长期依赖关系进行建模的能力。它的成功促使研究人员研究它对计算机视觉领域的适应，而 Vision Transformer (ViT) 是先驱。该架构直接继承自 NLP，但应用于以原始图像块作为输入的图像分类。后来，许多 ViT 变体被开发出来，以提高性能或扩展到更广泛的视觉任务，例如目标检测和分割。

ViT 及其变体在视觉数据中具有很强的捕获低频的能力，主要包括场景或对象的全局形状和结构，但对于学习高频的能力不是很强，主要包括局部边缘和纹理。这可以直观地解释：Self-Attention是 ViTs 中用于在非重叠 patch tokens之间交换信息的主要操作，也是一种全局操作，相对于高频局部信息Self-Attention更能捕获数据中低频的全局信息。

论文题目：Inception Transformer
详细解读：https://www.aminer.cn/research_report/62bd58597cb68b460fdf5dadhttps://www.aminer.cn/research_report/62bd58597cb68b460fdf5dad
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？

Inception CNN or Inception Transformer?
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。