MetaFormer is Actually What You Need for Vision

摘要

在Transformer中,早期人们发现是其中的注意力机制起了很重要的作用,但后续其他的研究发现除了注意力模块,其他模块也能起到一定的作用。所以文章提出了:其实这些具体的模块并不重要,Transformer的成功来自于其整体架构。
论文地址:MetaFormer is Actually What You Need for Vision

方法

论文提出了叫PoolFormer的模型,整体结构和其他模型类似,只是将token mixer的部分替换为pool池化层。如图1。
Alt

图1

池化算子的描述如下:
在这里插入图片描述
伪代码逻辑如下:
在这里插入图片描述
由于池化算子的复杂度比自注意力和spatial MLP要小,与要处理的序列长度呈线性长度,且没有可学习的参数,所以可以采用分阶段的方法。模型分了四个阶段,如图2。假设总共有L个PoolFormer块,则四个阶段分别分配L/6、L/6、L/2、L/6个。
在这里插入图片描述

图2

每个阶段的参数如下图3。
Alt

图3

实验

在图像分类任务上,PoolFormer性能都超过了同等规模的其他模型。
Alt

目标检测和实例分割上使用COCO数据集,在以更少的参数的前提下取得了比ResNet更高的性能。

Alt

Alt
语义分割任务上也超过了ResNet、ResNeXt和PVT。
在这里插入图片描述
消融实验中,论文将池化模块替换成恒等映射,也保留了较高的精度。在此基础上改变池化核尺寸、归一化方法、激活函数影响都不大。
Alt
消融实验结果说明图1中token mixer这个部分,具体采用哪种方法并不关键,网络模型的整体结构才是对性能提升最重要的。因此整体的结构被提炼出来,被命名为Meta Former,如图1最左边的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值