摘要
在Transformer中,早期人们发现是其中的注意力机制起了很重要的作用,但后续其他的研究发现除了注意力模块,其他模块也能起到一定的作用。所以文章提出了:其实这些具体的模块并不重要,Transformer的成功来自于其整体架构。
论文地址:MetaFormer is Actually What You Need for Vision
方法
论文提出了叫PoolFormer的模型,整体结构和其他模型类似,只是将token mixer的部分替换为pool池化层。如图1。
图1
池化算子的描述如下:
伪代码逻辑如下:
由于池化算子的复杂度比自注意力和spatial MLP要小,与要处理的序列长度呈线性长度,且没有可学习的参数,所以可以采用分阶段的方法。模型分了四个阶段,如图2。假设总共有L个PoolFormer块,则四个阶段分别分配L/6、L/6、L/2、L/6个。
图2
每个阶段的参数如下图3。
图3
实验
在图像分类任务上,PoolFormer性能都超过了同等规模的其他模型。
目标检测和实例分割上使用COCO数据集,在以更少的参数的前提下取得了比ResNet更高的性能。
语义分割任务上也超过了ResNet、ResNeXt和PVT。
消融实验中,论文将池化模块替换成恒等映射,也保留了较高的精度。在此基础上改变池化核尺寸、归一化方法、激活函数影响都不大。
消融实验结果说明图1中token mixer这个部分,具体采用哪种方法并不关键,网络模型的整体结构才是对性能提升最重要的。因此整体的结构被提炼出来,被命名为Meta Former,如图1最左边的模型。