CVPR2021 新的注意力机制 Coordinate Attention-CSDN博客

本文链接：https://blog.csdn.net/nijiayan123/article/details/115935854

在以往一提到注意力机制，大家想到的都是空间注意力，通道注意力和自注意力这三个大项目。如果效果不行再加一个SE 网络。基本都是这个套路，不管什么模型只要用到了注意力机制大概都是这几个注意力来回折腾。今天看文章看到了一个新的注意力方式，整个注意力的结构和方法还是比较新颖的，相比于传统的注意力机制，给大家提供了另一个思路，这也我们又可以愉快的灌水了。

大部分注意力机制用于深度神经网络可以带来很好的性能提升，但这些注意力机制用于移动网络（模型比较小）会明显落后于大网络，这主要是因为大多数注意力机制带来的计算开销对于移动网络而言是无法承受的，例如self-attention。因此，在移动网络上主要使用Squeeze-and-Excitation (SE)，BAM和CBAM。但SE只考虑内部通道信息而忽略了位置信息的重要性，而视觉中目标的空间结构是很重要的。BAM和CBAM尝试去通过在通道上进行全局池化来引入位置信息，但这种方式只能捕获局部的信息，而无法获取长范围依赖的信息。

在本文中提出了一种新颖且高效的注意力机制，通过嵌入位置信息到通道注意力，从而使移动网络获取更大区域的信息而避免引入大的开销。为了避免2D全局池化引入位置信息损失，本文提出分解通道注意为两个并行的1D特征编码来高效地整合空间坐标信息到生成的attention maps中。

具体而言，利用两个1D全局池化操作将沿垂直和水平方向的input features分别聚合为两个单独的direction-aware feature maps。然后将具有嵌入的特定方向信息的这两个特征图分别编码为两个attention map，每个attention map都沿一个空间方向捕获输入特征图的远距离依存关系。位置信息因此可以被保存在所生成的attention map中。然后通过乘法将两个attention map都应用于input feature maps，以强调注意区域的表示。

考虑到其操作可以区分空间方向（即坐标）并生成coordinate-aware attention maps，因此论文将提出的注意力方法称为“coordinate attention”。

这种coordinate attention有三个优点：

1) 它捕获了不仅跨通道的信息，还包含了direction-aware和position-sensitive的信息，这使得模型更准确地定位到并识别目标区域。

2) 这种方法灵活且轻量，很容易插入到现有的经典移动网络中，例如MobileNet_v2中的倒残差块和MobileNeXt中的沙漏块中去提升特征表示性能。

3) 对一个预训练的模型来说，这种coordinate attention可以给使用移动网络处理的down-stream任务带来明显性能提升，尤其是那些密集预测的任务，例如语义分割。

具体的网络结构如下图所示。