#今日论文推荐# 全新混合架构iFormer,将卷积和最大池化灵活移植到Transformer
最近的研究表明,Transformer 具有很强的构建远程相关性的能力,但在捕获传递局部信息的高频信息方面表现较差。为了解决这个问题,作者提出了一种新型的通用 Inception Transformer,简称 iFormer,它可以有效地学习视觉数据中的高频和低频信息的综合特征。具体而言,作者设计了一个 Inception mixer,以移植卷积和最大池化的优点,将高频信息捕获到 Transformer。与最近的混合框架不同,Inception mixer 通过通道分裂机制带来了更高的效率,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,同时能够灵活地建模分散在较宽频率范围内的鉴别信息。考虑到底层在捕捉高频细节方面的作用更大,而顶层在建模低频全局信息方面的作用更大,作者进一步引入了一种频率渐变结构,即逐渐减小馈送到高频混频器的尺寸,增加馈送到低频混频器的尺寸,它可以有效地在不同层之间权衡高频和低频分量。作者在一系列视觉任务中对 iFormer 进行了基准测试,并展示了它在图像分类、COCO 检测和 ADE20K 分割方面取得的惊人的性能。例如,iFormer-S 在 ImageNet-1K 上达到了83.4% 的 Top-1 精度,比 DeiT-S 高出了 3.6%,甚至比更大的 Swin-B(83.3%)略好,只有 1/4 的参数和 1/3 的 FLOPs。
论文题目:Inception Transformer
详细解读:https://www.aminer.cn/research_report/62b2bda07cb68b460fd8aa9d?download=falsehttps://www.aminer.cn/research_report/62b2bda07cb68b460fd8aa9d?download=false
AMiner链接:https://www.aminer.cn/?f=cs