MetaFormer才是计算机视觉真正需要的

最新推荐文章于 2024-04-14 16:28:22 发布

VIP文章 CV案例精选

最新推荐文章于 2024-04-14 16:28:22 发布

阅读量709

点赞数 1

文章标签：计算机视觉 transformer 深度学习

本文链接：https://blog.csdn.net/cvanlijingxuan/article/details/122715049

版权

原标题：MetaFormer is Actually What You Need for Vision

论文地址:

https://arxiv.org/abs/2111.11418

代码地址:

https://github.com/sail-sg/poolformer

01 Abstract

本文提出Transformer的成功并不是源于其自注意力结构，而是其广义架构，通常大家普遍认为基于自注意力的token mixer模块对于Transformer的贡献最大，但是最近的工作表明Transformer模型可以被纯MLP 结构替代，并且仍然能够表现得很好，基于这些工作，作者提出了一种假设即Transformer中的自注意力模块并不是最重要的。

为了证明这个假设，通过一个简单的池化操作来替代attention模块来完成最基本的token mixing, 采用池化操作的原因是，池化不需要参数，并且也能够实现token mixing, 得到的模型称之为PoolFormer。

试验结果表明这个模型能够在多个视觉任务中达到很好的表现，比如在ImageNet1K数据集中，能够达到82.1%的准确率，超过DeiT-B(Transformer架构)和ResMLP-B24(MLP架构)的同时还能够大幅减小参数量。

02 Method

2.1 MetaFormer

如上图所示，MetaFormer是一种从Transformer中抽象出来的架构，没有指定Token Mixer，而其他结构和常规的Transformer保持一致，如果使用Attention或者MLP作为Token Mixer, 那么就变成了Transformer(比如DeiT)或者MLP-like Model(ResMLP), 为了证明MetaFormer的有效性，提出PoolFormer采用无参数的Pooling操作来实现T