Why Transformer works

在近年来计算机视觉领域中,transformer似乎全面超越CNN,在各种任务上SotA,特别是swin[1]出来以后。然而有一个问题值得我们去思考,transformer的优势在哪里?为什么能够work?transformer刚在CV领域火起来以后,大书特书其中的多头注意力机制(MSA),我们似乎也同意了,似乎以cnn为代表的局部注意力机制在全局注意力机制的衬托下愈发显得羸弱与不堪。MLP(在cv领域)的死灰复燃[2]似乎也强调了这一点。

然而这是真相吗?

在后续的研究中发现,将MSA换成MLP、傅里叶变换效果也不错,甚至颜水成[3]团队发现即使将Transformer中的MSA换成pooling,精度也比cnn高;王井东团队[4]验证local Transformer attention与 inhomogeneous dynamic depthwise conv等价。那么究竟是什么造就了Transformer的成功呢?

近日(2022年1月12日),Facebook AI Research 一步步将resnet50向transformer演变[5],发现transformer中的每个小模块都对精度有小幅度提升,最终联合促成了transformer的高精度。并且该团队还通过实验表明,在使用了这些小trick以后,CNN精度完爆transformer。在相近参数量的前提下,在分类、检测、分割任务上全面超越swin。

cnn并未过时,transformer不是万能药,但是transformer中的各种设计技巧值得我们学习。

参考文献:

  1. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
  2. MLP is all you need
  3. MetaFormer is Actually What You Need for Vision
  4.  Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight
  5. A ConvNet for the 2020s
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值