即插即用模块！重温坐标注意力机制：助力分类/检测/分割涨点！

最新推荐文章于 2024-09-11 23:52:47 发布

群函数

最新推荐文章于 2024-09-11 23:52:47 发布

阅读量1.2k

点赞数 10

分类专栏：计算机视觉文章标签：分类数据挖掘人工智能计算机视觉图像处理机器学习深度学习

本文链接：https://blog.csdn.net/qq_36101623/article/details/135375796

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

关注我，发现生活之美.工v号【群函数】

首先，基本概念介绍：

注意力机制是一种模仿人类注意力机制的计算模型，用于告诉一个模型在哪里以及关注什么，并已经得到广泛研究，从而在处理大量信息时选择性地关注和处理部分信息，而忽略其他部分。注意力机制的主要作用是在模型处理信息时动态地调整对不同部分的关注程度，使模型能够更集中地处理与任务相关的信息。主要作用如下：

1.处理序列数据：在自然语言处理等任务中，序列数据的长度可能会很长。注意力机制使模型能够在处理每个步骤时更关注与当前任务相关的部分，而不是一概而论地平均处理整个序列。

2.图像处理：在图像处理中，注意力机制可以帮助模型关注图像的特定区域，而不是平均考虑整个图像。这对于目标检测、图像分类等任务很有帮助。

3.解决长距离依赖：注意力机制有助于捕捉长距离的依赖关系，因为它可以动态地调整对不同位置的关注程度，而传统的固定权重可能无法有效地处理这种情况。

CA文章摘要

坐标注意力（CA）顾名思义通过将位置信息嵌入到通道注意。具体操作为坐标注意力将通道注意力分解为两个1D特征编码过程（1D全局池化操作），分别沿两个空间方向聚合特征。

通过这种方式，可以沿一个空间方向捕捉长距离依赖关系，同时可以沿另一个空间方向保留精确的位置信息。因此，生成的特征图被分别编码成一对方向感知和位置敏感的注意力图，可以互补地应用于输入特征图，以增强感兴趣目标的表示。

发表期刊（会议）：

CVPR2021

论文地址：

https://arxiv.org/pdf/2103.02907.pdf

代码地址：

https://github.com/houqb/CoordAttention

实验条件：

4块 NVIDIA GPUs

作者单位：

南洋理工大学

CA前世今生

考虑到移动网络的受限计算能力，迄今为止，移动网络中最流行的注意机制仍然是Squeeze-and-Excitation（SE）注意力。它通过2D全局池化来计算通道注意力，并以相对较低的计算成本提供显著的性能增益。然而，SE注意仅考虑编码通道间信息，而忽略了位置信息的重要性，而这对于捕捉视觉任务中的对象结构至关重要。后续的研究，如BAM 和CBAM，试图通过减少输入张量的通道维度，然后使用卷积计算空间注意力来利用位置信息。然而，卷积只能捕捉局部关系，无法建模对视觉任务至关重要的远程依赖关系。

作者提出了一种新颖而高效的注意力机制，通过将位置信息嵌入通道注意力中，使移动网络能够在避免显著计算开销的同时关注较大区域。具有以下优势：

1.它捕捉不仅跨通道而且方向感知和位置敏感的信息，有助于模型更准确地定位和识别感兴趣的目标。

2.该方法灵活且轻量，可以轻松插入移动网络的经典构建块，如MobileNetV2中提出的反向残差块和MobileNeXt中提出的沙漏块，通过强调信息丰富的表示来增强特征。

3.作为预训练模型，坐标注意力在移动网络中可以为下游任务带来显著的性能提升，特别是对于那些具有密集预测（例如语义分割）的任务。

CA匠心独运

1.方法概述。

CA注意力机制：为了减轻由2D全局池化引起的位置信息丢失，作者将通道注意力分解为两个平行的1D特征编码过程，以有效地将空间坐标信息整合到生成的注意力图中。

具体而言：该方法利用两个1D全局池化操作，分别沿垂直和水平方向聚合输入特征，形成两个独立的方向感知特征图。这两个带有嵌入方向特定信息的特征图随后被分别编码成两个注意力图，每个图捕捉输入特征图沿一个空间方向的长距离依赖关系。因此，位置信息可以在生成的注意力图中得到保留。通过乘法，两个注意力图然后应用于输入特征图，以强调感兴趣的表示。我们将所提出的注意力方法命名为坐标注意力，因为其操作区分了空间方向（即坐标），并生成了具有坐标感知的注意力。

2.架构设计。

不同网络架构的网络实现。 (a) MobileNetV2中提出的反向残差块；(b) MobileNeXt中提出的沙漏瓶颈。

CA卓越性能

作者在ImageNet分类[33]以及包括目标检测和语义分割在内的流行下游任务上进行了大量实验证明。在具有可比数量的可学习参数和计算量的情况下，我们的网络在ImageNet的Top-1分类准确性上取得了0.8%的性能提升。在目标检测和语义分割中，与其他注意力机制的模型相比，我们还观察到显著的改进，如图1所示。

使用不同注意力方法的模型在最后一个构建块中生成的特征图的可视化。作者使用Grad-CAM [35]作为我们的可视化工具。对每个注意力块之前和之后的特征图进行了可视化。显然，坐标注意力（CA）能够比其他注意力方法更精确地定位感兴趣的对象。

CA未来展望

作者提出了一种名为坐标注意力的新型轻量级注意力机制，适用于移动网络。坐标注意力继承了通道注意力方法（例如Squeeze-and-Excitation注意力）的优点，即建模通道间关系，并同时通过精确的位置信息捕捉长距离依赖关系。在ImageNet分类、目标检测和语义分割的实验证明了我们坐标注意力的有效性。

参考文献：

【1】Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 13713-13722.

关注我，发现生活之美.工v号【群函数】