原标题:MetaFormer is Actually What You Need for Vision
论文地址:
https://arxiv.org/abs/2111.11418
代码地址:
https://github.com/sail-sg/poolformer
01 Abstract
本文提出Transformer的成功并不是源于其自注意力结构,而是其广义架构,通常大家普遍认为基于自注意力的token mixer模块对于Transformer的贡献最大,但是最近的工作表明Transformer模型可以被纯MLP 结构替代,并且仍然能够表现得很好,基于这些工作,作者提出了一种假设即Transformer中的自注意力模块并不是最重要的。
为了证明这个假设,通过一个简单的池化操作来替代attention模块来完成最基本的token mixing, 采用池化操作的原因是,池化不需要参数,并且也能够实现token mixing, 得到的模型称之为PoolFormer。
试验结果表明这个模型能够在多个视觉任务中达到很好的表现,比如在ImageNet1K数据集中,能够达到82.1%的准确率,超过DeiT-B(Transformer架构)和ResMLP-B24(MLP架构)的同时还能够大幅减小参数量。
02 Method
2.1 MetaFormer
如上图所示,MetaFormer是一种从Transformer中抽象出来的架构,没有指定Token Mixer,而其他结构和常规的Transformer保持一致,如果使用Attention或者MLP作为Token Mixer, 那么就变成了Transformer(比如DeiT)或者MLP-like Model(ResMLP), 为了证明MetaFormer的有效性,提出PoolFormer采用无参数的Pooling操作来实现T