（论文翻译）Coordinate Attention for Efficient Mobile Network Design（坐标注意力 CVPR2021）

最新推荐文章于 2025-03-17 15:59:44 发布

ismiaodh

最新推荐文章于 2025-03-17 15:59:44 发布

阅读量1.3k

点赞数 36

分类专栏：论文翻译文章标签： python 计算机视觉数据挖掘机器学习神经网络

本文链接：https://blog.csdn.net/qq_39214409/article/details/139551946

版权

Coordinate Attention for Efficient Mobile Network Design（CVPR2021）

文章目录

Coordinate Attention for Efficient Mobile Network Design（CVPR2021）

实验部分详见原文，文章为原文翻译，如有错误请参照原文

摘要

挑战：最近在移动网络设计的研究在通道注意力上（如SENet）表现出引人注意的效果，但是他们普遍忽略了位置信息，这对生成空间注意力特征映射是重要的
方法：
- 在本文中，我们通过将位置信息嵌入到通道注意力中，提出一种新颖的移动网络注意力机制，名为“coordinate attention”
- 不同于通道注意力将特征张量经过二维池化操作转换成单一特征向量，coordinate attention将通道注意力分解为两个一维特征，分别沿两个空间方向聚集特征
- 这样可以在一个空间方向上捕获远程依赖关系，同时在另一个空间方向上保持精确的位置信息
- 然后将得到的特征图分别编码为一对方向感知和位置敏感的注意映射，它们可以互补地应用于输入特征映射，以增强感兴趣目标的表示
- 我们的coordinate attention 是简单的，可以灵活地插入经典的移动网络，如MobileNetV2, MobileNeXt，是几乎没有计算开销的高效率网络
贡献：
大量的实验表明，我们的 coordinate attention 关注不仅有利于ImageNet分类，更有趣的是，在下游任务中，如目标检测和语义分割中表现更好
code：https://github.com/Andrew-Qibin/CoordAttention

1.引言

在这里插入图片描述

Figure 1. Performance of different attention methods on three classic vision tasks. The y-axis labels from left to right are top-1 accuracy, mean IoU, and AP, respectively. Clearly, our approach not only achieves the best result in ImageNet classification [33] against the SE block [18] and CBAM [44] but performs even better in down-stream tasks, like semantic segmentation [9] and COCO object detection [21]. Results are based on MobileNetV2 [34].

1st Para:

注意机制，用来告诉模型“what”和“where”，已经被广泛研究，并提高现代深度神经网络的性能
然而，它们在移动网络中的应用(模型大小有限)明显落后于大型网络
这主要是因为大多数注意力机制带来的计算开销对于移动网络来说是无法承受的

2st Para:

考虑到移动网络有限的计算能力，迄今为止，移动网络中最流行的注意力机制仍然是(squeeze-and-excitation, SE)注意力
它在2D全局池化的帮助下计算通道注意力，并以相当低的计算成本提供显著的性能提升
然而，SE注意力只考虑了通道间信息的编码，而忽略了位置信息的重要性，而位置信息对于视觉任务中捕获目标结构至关重要
后来的研究，比如BAM和CBAM试图通过降低输入张量的通道维数，然后使用卷积计算空间注意力来利用位置信息，如Figure 2(b)
然而，卷积只能捕获局部关系，而不能对视觉任务所必需的长期依赖关系进行建模

3st Para:

在本文中，除了第一项工作之外，我们提出了一种新颖有效的注意机制，通过将位置信息嵌入到通道注意中，使移动网络能够关注大区域，同时避免产生显著的计算开销
为了减轻二维全局池化造成的位置信息丢失，我们将通道注意分解为两个并行的一维特征编码过程，以有效地整合空间坐标信息到生成的注意力映射
具体来说，我们的方法利用两个一维全局池化操作，分别将垂直和水平方向的输入特征聚合到两个独立的方向感知特征映射中
这两个嵌入了特定方向信息的特征映射被分别编码成两个注意力映射，每个注意力映射可以沿一个空间方向捕获输入特征映射的远程依赖关系
因此，位置信息可以保存在生成的注意力映射中
然后，通过乘法将两个注意映射应用于输入特征映射，以强调感兴趣的表示
我们将提出的注意方法命名为coordinate attention，因为它可以区分空间方向(即坐标)并生成坐标感知的注意力映射

4st Para:

我们的coordinate attention 提供了以下优势
首先，它不仅可以捕获跨通道信息，还可以捕获方向感知和位置敏感信息，这有助于模型更准确地定位和识别感兴趣的目标
其次，我们的方法灵活且轻量级，可以很容易地插入到移动网络的经典构建块中，例如MobileNetV2中提出的residual块和MobileNeXt中提出的sandglass块，通过强调信息表示来增强特征
第三，作为一个预训练模型，我们的coordinate attention 可以为移动网络的下游任务带来显著的性能提升，特别是对于那些密集预测的任务(例如，语义分割)，我们将在我们的实验部分中展示

5st Para:

为了证明本文提出的方法相对于以往移动网络关注方法的优势，我们在ImageNet分类和流行的下游任务(包括目标检测和语义分割)中进行了大量实验
通过相当数量的可学习参数和计算，我们的网络在ImageNet上的top1分类准确率中实现了0.8%的性能提升
在目标检测和语义分割方面，我们也观察到与其他注意机制的模型相比有了显著的改进，如Figure 1
我们希望我们简单高效的设计能够促进未来移动网络注意力机制的发展

2.相关工作

在这里插入图片描述

Figure 2. Schematic comparison of the proposed coordinate attention block © to the classic SE channel attention block [18] (a) and CBAM [44] (b). Here, “GAP” and “GMP” refer to the global average pooling and global max pooling, respectively. ‘X Avg Pool’ and ’Y Avg Pool’ refer to 1D horizontal global pooling and 1D vertical global pooling, respectively.

3.方法：Coordinate Attention

coordinate attention block可以被看作是一个旨在增强移动网络学习特征的表达能力的计算单元
它可以取任何中间特征张量 $\mathbf{X} = [\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_C] \in \mathbb{R}^{C\times H\times W}$ 作为输入并输出具有增广表示的与 $\mathbf{X}$ 尺寸相同的变换张量 $\mathbf{Y} = [\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_C]$
为了清晰地描述所提出的coordinate attention，我们首先回顾在移动网络中广泛使用的SE注意