Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
超越自我注意:使用两个线性层进行视觉任务的外部注意
论文
摘要
——注意机制,尤其是自我注意,在视觉任务的深度特征表示中发挥着越来越重要的作用。自注意力通过使用所有位置的成对亲和力计算特征的加权和来更新每个位置的特征,以捕获单个样本中的长期依赖关系。然而,self-attention 具有二次复杂度,并且忽略了不同样本之间的潜在相关性。
本文提出了一种新的注意力机制,我们称之为外部注意力,它基于两个外部的、小的、可学习的、共享的内存,只需使用两个级联的线性层和两个归一化层就可以轻松实现;它方便地取代了现有流行架构中的 self-attention。外部注意力具有线性复杂性,并隐含考虑所有数据样本之间的相关性。我们进一步将多头机制纳入外部注意,以提供用于图像分类的全 MLP 架构,外部注意 MLP (EAMLP)。在图像分类、对象检测、语义分割、实例分割、图像生成和点云分析方面的大量实验表明,我们的方法提供的结果与自我注意机制及其一些变体相当或更好,而且计算和内存成本要低得多.
1、动机
注意力机制,尤其是self-attention(SA),在CV任务中越来越重要了。self-attention通过计算同一个样本所有位置之间的相关性,来捕获长距离依赖。然而,其计算复杂度是平方级的,且忽略了不同样本间的联系