外部注意力EA阅读

赫瑟尔

已于 2022-04-25 16:39:16 修改

阅读量2.2k

点赞数 2

分类专栏：深度学习文章标签：深度学习

于 2022-04-07 21:19:22 首次发布

本文链接：https://blog.csdn.net/qq_42075634/article/details/124026402

版权

本文提出外部注意力（EA）机制，作为自注意力（SA）的替代，以解决SA的高计算复杂度问题。EA使用两个线性层和归一化层，实现线性复杂度并考虑不同样本间的关系。多头外部注意力（Multi-Head EA）被应用在全MLP架构EAMLP中，展现出与SA相当甚至更好的性能，同时在计算和内存成本上更低。广泛实验表明，EA在图像分类、检测、分割等多个任务中表现出优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
超越自我注意：使用两个线性层进行视觉任务的外部注意
论文

摘要

——注意机制，尤其是自我注意，在视觉任务的深度特征表示中发挥着越来越重要的作用。自注意力通过使用所有位置的成对亲和力计算特征的加权和来更新每个位置的特征，以捕获单个样本中的长期依赖关系。然而，self-attention 具有二次复杂度，并且忽略了不同样本之间的潜在相关性。
本文提出了一种新的注意力机制，我们称之为外部注意力，它基于两个外部的、小的、可学习的、共享的内存，只需使用两个级联的线性层和两个归一化层就可以轻松实现；它方便地取代了现有流行架构中的 self-attention。外部注意力具有线性复杂性，并隐含考虑所有数据样本之间的相关性。我们进一步将多头机制纳入外部注意，以提供用于图像分类的全 MLP 架构，外部注意 MLP (EAMLP)。在图像分类、对象检测、语义分割、实例分割、图像生成和点云分析方面的大量实验表明，我们的方法提供的结果与自我注意机制及其一些变体相当或更好，而且计算和内存成本要低得多.

1、动机
注意力机制，尤其是self-attention（SA），在CV任务中越来越重要了。self-attention通过计算同一个样本所有位置之间的相关性，来捕获长距离依赖。然而，其计算复杂度是平方级的，且忽略了不同样本间的联系