#今日论文推荐# 全新混合架构iFormer,将卷积和最大池化灵活移植到Transformer

#今日论文推荐# 全新混合架构iFormer,将卷积和最大池化灵活移植到Transformer

最近的研究表明,Transformer 具有很强的构建远程相关性的能力,但在捕获传递局部信息的高频信息方面表现较差。为了解决这个问题,作者提出了一种新型的通用 Inception Transformer,简称 iFormer,它可以有效地学习视觉数据中的高频和低频信息的综合特征。具体而言,作者设计了一个 Inception mixer,以移植卷积和最大池化的优点,将高频信息捕获到 Transformer。与最近的混合框架不同,Inception mixer 通过通道分裂机制带来了更高的效率,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,同时能够灵活地建模分散在较宽频率范围内的鉴别信息。考虑到底层在捕捉高频细节方面的作用更大,而顶层在建模低频全局信息方面的作用更大,作者进一步引入了一种频率渐变结构,即逐渐减小馈送到高频混频器的尺寸,增加馈送到低频混频器的尺寸,它可以有效地在不同层之间权衡高频和低频分量。作者在一系列视觉任务中对 iFormer 进行了基准测试,并展示了它在图像分类、COCO 检测和 ADE20K 分割方面取得的惊人的性能。例如,iFormer-S 在 ImageNet-1K 上达到了83.4% 的 Top-1 精度,比 DeiT-S 高出了 3.6%,甚至比更大的 Swin-B(83.3%)略好,只有 1/4 的参数和 1/3 的 FLOPs。

论文题目:Inception Transformer
详细解读:https://www.aminer.cn/research_report/62b2bda07cb68b460fd8aa9d?download=falseicon-default.png?t=M5H6https://www.aminer.cn/research_report/62b2bda07cb68b460fd8aa9d?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值