全新混合架构iFormer!将卷积和最大池化灵活移植到Transformer

iFormer是一种新型的Inception Transformer,旨在解决Transformer在捕获高频信息方面的不足。通过Inception mixer,它结合了卷积和最大池化的优点,有效地在不同层之间平衡高频和低频信息。实验表明,iFormer在图像分类、检测和分割任务上超越了现有的Transformer和CNN模型。
摘要由CSDN通过智能技术生成

91cfd2ec1e2a44e6dea2522ff5f82a90.gif

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉


摘要

最近的研究表明,Transformer 具有很强的构建远程相关性的能力,但在捕获传递局部信息的高频信息方面表现较差。为了解决这个问题,作者提出了一种新型的通用 Inception Transformer,简称 iFormer,它可以有效地学习视觉数据中的高频和低频信息的综合特征。

具体而言,作者设计了一个 Inception mixer,以移植卷积和最大池化的优点,将高频信息捕获到 Transformer。与最近的混合框架不同,Inception mixer 通过通道分裂机制带来了更高的效率,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,同时能够灵活地建模分散在较宽频率范围内的鉴别信息。

考虑到底层在捕捉高频细节方面的作用更大,而顶层在建模低频全局信息方面的作用更大,作者进一步引入了一种频率渐变结构,即逐渐减小馈送到高频混频器的尺寸,增加馈送到低频混频器的尺寸,它可以有效地在不同层之间权衡高频和低频分量。

作者在一系列视觉任务中对 iFormer 进行了基准测试,并展示了它在图像分类、COCO 检测和 ADE20K 分割方面取得的惊人的性能。例如,iFormer-S 在 ImageNet-1K 上达到了83.4% 的 Top-1 精度,比 DeiT-S 高出了 3.6%,甚至比更大的 Swin-B(83.3%)略好,只有 1/4 的参数和 1/3 的 FLOPs。

abca89e6bfd13bcaa1d2760c1f5fa43c.png

论文和代码地址

03583d6ba6290f40fe17fac614ed38bb.png

论文标题:

Inception Transformer

论文地址:

https://arxiv.org/abs/2205.12956

代码地址:

https://github.com/sail-sg/iFormer

bd2324e1c9e069e8da8e3b25472d78f8.png

Motivation

Transformer 在自然语言处理(NLP)领域掀起了高潮,在许多 NLP 任务中取得了不错的高性能,例如机器翻译和问答。这在很大程度上归功于它具有强大的能力,能够利用自注意机制对数据中的长期依赖关系进行建模。它的成功使研究人员研究了它对计算机视觉领域的适应性,视觉 Transformer(ViT)是一个先驱工作,该结构直接继承自 NLP,但应用于以原始图像块作为输入的图像分类。后来,开发了许多 ViT 变体,以提高性能或扩展到更广泛的视觉任务,例如,目标检测和分割。

ViT 及其变体能够捕获视觉数据中的低频率信息,主要包括场景或对象的全局形状和结构,但对于学习高频率(主要包括局部边缘和纹理)的能力不是很强。这可以直观地解释:ViTs 中用于在非重叠 patch token 之间交换信息的主要操作 self-attention 是一种全局操作,比起局部信息(低频),它更适合捕获全局信息(高频)。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值