CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

最新推荐文章于 2025-03-30 07:00:00 发布

CV技术指南(公众号)

最新推荐文章于 2025-03-30 07:00:00 发布

阅读量4.9k

点赞数 6

分类专栏：论文分享文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/KANG157/article/details/115530477

版权

前言：

最近几年，注意力机制用来提升模型性能有比较好的表现，大家都用得很舒服。本文将介绍一种新提出的坐标注意力机制，这种机制解决了SE，CBAM上存在的一些问题，产生了更好的效果，而使用与SE，CBAM同样简单。

论文地址：

https://arxiv.org/pdf/2103.02907.pdf

代码地址：

https://github.com/AndrewQibin/CoordAttention

Introduction

大部分注意力机制用于深度神经网络可以带来很好的性能提升，但这些注意力机制用于移动网络（模型比较小）会明显落后于大网络，这主要是因为大多数注意力机制带来的计算开销对于移动网络而言是无法承受的，例如self-attention。

因此，在移动网络上主要使用Squeeze-and-Excitation (SE)，BAM和CBAM。但SE只考虑内部通道信息而忽略了位置信息的重要性，而视觉中目标的空间结构是很重要的。BAM和CBAM尝试去通过在通道上进行全局池化来引入位置信息，但这种方式只能捕获局部的信息，而无法获取长范围依赖的信息。

这里稍微解释一下，经过几层的卷积后feature maps的每个位置都包含了原图像一个局部区域的信息，CBAM是通过对每个位置的多个通道取最大值和平均值来作为加权系数，因此这种加权只考虑了局部范围的信息。

在本文中提出了一种新颖且高效的注意力机制，通过嵌入位置信息到通道注意力，从而使移动网络获取更大区域的信息而避免引入大的开销。为了避免2D全局池化引入位置信息损失，本文提出分解通道注意为两个并行的1D特征编码来高效地整合空间坐标信息到生成的attention maps中。

具体而言，利用两个1D全局池化操作将沿垂直和水平方向的input features分别聚合为两个单独的direction-aware feature maps。然后将具有嵌入的特定方向信息的这两个特征图分别编码为两个attention map，每个attention map都沿一个空间方向捕获输入特征图的远距离依存关系。位置信息因此可以被保存在所生成的attention map中。然后通过乘法将两个attention map都应用于input feature maps，以强调注意区域的表示。

考虑到其操作可以区分空间方向（即坐标）并生成coordinate-aware attention maps，因此论文将提出的注意力方法称为“coordinate attention”。

这种coordinate attention有三个优点：

1) 它捕获了不仅跨通道的信息，还包含了direction-aware和position-sensitive的信息，这使得模型更准确地定位到并识别目标区域。

2) 这种方法灵活且轻量，很容易插入到现有的经典移动网络中，例如MobileNet_v2中的倒残差块和MobileNeXt中的沙漏块中去提升特征表示性能。

3) 对一个预训练的模型来说，这种coordinate attention可以给使用移动网络处理的down-stream任务带来明显性能提升，尤其是那些密集预测的任务，例如语义分割。