Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!...

关注公众号,发现CV技术之美

 写在前面

Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位。在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图像识别SOTA性能的关键 。为此,作者基于现有的基于MLP的视觉模型,建立了一个无注意力网络sMLPNet。

具体来说,作者将以往工作中用于token混合的MLP模块替换为一个稀疏MLP(sMLP)模块。对于二维图像token,sMLP沿轴向(横向或者纵向)应用一维MLP,参数在行、列维度共享。通过稀疏连接权重共享 ,sMLP模块显著降低了模型参数的数量和计算复杂度,避免了MLP模型的内在问题(如过拟合、参数量大、计算量大)。

当仅在ImageNet-1K数据集上训练时,sMLPNet在只有24M参数下达到81.9%的Top-1精度,比相同模型大小约束下的大多数CNN和视觉Transformer要好得多。当扩展到66M参数时,sMLPNet达到了83.4%的Top-1精度,这与SOTA的 Swin Transformer相当。

 1. 论文和代码地址

e627e736aa82d8043a65b85b572d922c.png

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

论文地址:https://arxiv.org/abs/2109.05422
代码地址:未开源
sMLP Block复现代码:https://github.com/xmu-xiaoma666/External-Attention-pytorch#5-sMLP-Usage

 2. Motivation

自AlexNet提出以来,卷积神经网络(CNN)一直是计算机视觉的主导范式。随着Vision Transformer的提出,这种情况发生了改变。ViT将一个图像被划分为不重叠的patch,并用线性层将这些patch转换为token,然后输入到Transformer中进行处理。

Transformer编码器由多头自注意网络(Multi-Head Self-Attention)和前馈网络(FFN)组成,来实现空间信息混合和通道信息混合。当在一个非常大的数据上进行预训练时,ViT在图像识别任务上表现得非常好。接着DeiT进一步证明了只在ImageNet-1K上训练时,通过适当的数据增强和正则化技术,无卷积的Vision Transformer也可以实现SOTA的图像识别精度。

目前,无卷积的Vision Transformer主要存在两个核心的思想:首先,全局依赖性建模很重要 。不仅如此,它甚至可以取代卷积操作的局部建模。第二,自注意很重要 。尽管ViT和DeiT表现良好,学术界并没有完全接受这两种观点。

一方面,研究人员挑战了用全局建模代替局部建模的必要性既然局部偏置在自然图像中是有效的࿰

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值