attention机制的替代(LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION)
摘要
ICLR2021盲审的一篇论文
在自然语言处理领域(NLP)成为重要力量的 Transformer 技术最近已经开始在计算机视觉领域展现自己的实力。不过到目前为止,由于 Transformer 注意力机制对内存的需求是输入图像的二次方,所以这一方向还存在一些挑战。这篇文章就是针对attention机制的一个替代,近日,LambdaNetworks 的出现提供了一种解决此问题的方法,人们可以无需建立昂贵的注意力图即可捕捉长距离交互。这一方法在 ImageNet 上达到了新的业界最佳水平(state-of-the-art 84.8%)。
论文地址
https://openreview.net/pdf?id=xTJEN-ggl1b
长程交互
这一部分主要就是说明注意力机制的一些问题。
当前注意力交互。首先缩小查询深度,创建查询和上下文元素之间的相似性核(注意力图),也就是所谓的注意力操作。该机制可以被看作激发查询、键和数值术语的可微内存的寻址。由于上下文位置 |m| 的数量越来越大,并且输入和输出维数 |k| 和 |v| 保持不变,所以在层输出是较小维数 |v| << |m| 的一个向量时,作者假设计算注意力图是不划算的。
lambda层
一