论文:【AAAI2022】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism
代码:https://link.zhihu.com/?target=https%3A//github.com/microsoft/SPACH
B站作者讲解视频:https://www.bilibili.com/video/BV1a3411h7su
研究动机
这个工作是使用一个非常简单的操作取代 attention,取得了非常好的效果。首先介绍一下论文的motivation。作者认为 Tranformer 取得成功的关键在于两个特性:
-
Global:快速的全局建模能力,每个 token都能和其它的 token 发生关联
-
Dynamic:为每个样本动态的学习一组权重
作者的 motivation 就是:能不能用更简单的方式来取代 attention ,更极端的就是 NO global, NO dynamics, and even NO parameter and NO arithmetic calculation 。
为此,作者提出了 shift block,非常简单,本质就是对部分特征进行简单的移位操作来代替 se