Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！...

最新推荐文章于 2023-04-15 18:57:58 发布

我爱计算机视觉

最新推荐文章于 2023-04-15 18:57:58 发布

阅读量718

点赞数 1

文章标签：网络图像识别算法 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/120465818

版权

关注公众号，发现CV技术之美

▊ 写在前面

Transformer由于其强大的建模能力，目前在计算机视觉领域占据了重要的地位。在这项工作中，作者探究了Transformer的自注意（Self-Attention）模块是否是其实现图像识别SOTA性能的关键 。为此，作者基于现有的基于MLP的视觉模型，建立了一个无注意力网络sMLPNet。

具体来说，作者将以往工作中用于token混合的MLP模块替换为一个稀疏MLP(sMLP)模块。对于二维图像token，sMLP沿轴向（横向或者纵向）应用一维MLP，参数在行、列维度共享。通过稀疏连接 和权重共享 ，sMLP模块显著降低了模型参数的数量和计算复杂度，避免了MLP模型的内在问题（如过拟合、参数量大、计算量大）。

当仅在ImageNet-1K数据集上训练时，sMLPNet在只有24M参数下达到81.9%的Top-1精度，比相同模型大小约束下的大多数CNN和视觉Transformer要好得多。当扩展到66M参数时，sMLPNet达到了83.4%的Top-1精度，这与SOTA的 Swin Transformer相当。

▊ 1. 论文和代码地址

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

论文地址：https://arxiv.org/abs/2109.05422
代码地址：未开源
sMLP Block复现代码：https://github.com/xmu-xiaoma666/External-Attention-pytorch#5-sMLP-Usage

▊ 2. Motivation

自AlexNet提出以来，卷积神经网络(CNN)一直是计算机视觉的主导范式。随着Vision Transformer的提出，这种情况发生了改变。ViT将一个图像被划分为不重叠的patch，并用线性层将这些patch转换为token，然后输入到Transformer中进行处理。

Transformer编码器由多头自注意网络(Multi-Head Self-Attention)和前馈网络(FFN)组成，来实现空间信息混合和通道信息混合。当在一个非常大的数据上进行预训练时，ViT在图像识别任务上表现得非常好。接着DeiT进一步证明了只在ImageNet-1K上训练时，通过适当的数据增强和正则化技术，无卷积的Vision Transformer也可以实现SOTA的图像识别精度。

目前，无卷积的Vision Transformer主要存在两个核心的思想：首先，全局依赖性建模很重要 。不仅如此，它甚至可以取代卷积操作的局部建模。第二，自注意很重要 。尽管ViT和DeiT表现良好，学术界并没有完全接受这两种观点。

一方面，研究人员挑战了用全局建模代替局部建模的必要性 。既然局部偏置在自然图像中是有效的࿰

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！...

关注公众号，发现CV技术之美▊写在前面Transformer由于其强大的建模能力，目前在计算机视觉领域占据了重要的地位。在这项工作中，作者探究了Transformer的自注意（Self-...
复制链接

扫一扫