
前言
了解了SE和CBAM之后,Coordinate Attention(坐标注意)指出了前两者的一些缺点,并做出了一些改进,该篇论文发表于2021年CVPR
Abstract
最近关于mobile network设计的研究已经证明了通道注意(例如the Squeeze-and-Excitation attention)对于提升模型性能的显著有效性,但是它们通常忽略了位置信息,这对于生成空间选择性注意映射很重要。在本文中,我们提出了一种新的mobile network注意机制,将位置信息嵌入到通道注意中,我们称之为“坐标注意”。与通过2D global pooling将特征张量转换为单个特征向量的通道注意不同,坐标注意将通道注意分解为两个一维特征encoding过程,分别沿两个空间方向聚合特征。然后,将得到的特征图分别编码为一对方向感知和位置敏感的注意映射,这些注意映射可以互补地应用于输入特征映射,以增强感兴趣对象的表示。我们的坐标注意力很简单,可以灵活地插入经典mobile network,如MobileNetV2、MobileNeXt和EfficientNet,几乎不需要计算开销。大量实验表明,我们的坐标注意不仅有利于ImageNet分类,而且更有趣的是,它在下游任务中表现得更好,如目标检测和语义分割。代码可在https://github.com/Andrew-Qibin/CoordAttention.
1. Introduction
注意力机制,用于告诉模型“什么”和“在哪里”参加,已被广泛研究[47,29],并被广泛应用于提高现代深层神经网络的性能[18,44,3,25,10,14]。然而,它们在mobile network(模型尺寸有限)上的应用明显落后于大型网络[36,13,46]。这主要是因为大多数注意力机制带来的计算开销对于mobile network来说是无法承受的。
[29] V olodymyr Mnih, Nicolas Heess, Alex Graves, et al. Recurrent models of visual attention. InAdvances in neural information processing systems, pages 2204–2212, 2014.
[47] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. InICML, pages 2048–2057,2015.

图1:三种经典视觉任务中不同注意方法的表现。从左到右的y轴标签分别为top-1精度、mean IoU和AP。显然,我们的方法不仅在针对SE-block[18]和CBAM[44]的ImageNet分类[33]中取得了最好的结果,而且在下游任务中表现得更好,如语义分割[9]和COCO对象检测[21]。结果基于MobileNetV2[34]。
考虑到mobile network的计算能力有限,迄今为止,mobile network最流行的注意力机制仍然是Squeeze-and-Excitation (SE)注意[18]。它借助2D global pooling计算通道注意,并以相当低的计算成本提供显著的性能提升。然而,SE注意只考虑encoding通道间信息,而忽略了位置信息的重要性,位置信息对于在视觉任务中捕获对象结构至关重要[42]。后来的工作,如BAM[30]和CBAM[44],试图通过减少输入张量的通道维数,然后使用卷积计算空间注意,来利用位置信息,如图2(b)所示。然而,卷积只能捕获局部关系,但无法建模对视觉任务[48,14]至关重要的远距离的依赖关系。
在本文中,除了第一项工作之外,我们还提出了一种新颖有效的注意机制,通过将位置信息嵌入到信道注意中,使mobile network能够在大范围内参与,同时避免产生显著的计算开销。为了缓解2D global pooling造成的位置信息丢失,我们将通道注意分解为两个并行的一维特征encoding过程,以有效地将空间坐标信息集成到生成的注意映射中。

具体来说,我们的方法利用两个1D global pooling操作,分别沿垂直和水平方向将输入特征聚合为两个单独的方向感知特征映射。这两个具有嵌入方向特定信息的特征映射随后分别encoding为两个注意映射,每个注意映射捕获输入特征图沿一个空间方向的远距离依赖关系。因此,位置信息可以保存在生成的注意映射中。然后,通过乘法将两个注意力映射应用于输入特征映射,以强调兴趣的表示。我们将提出的注意方法命名为coordinate attention,因为其操作区分空间方向(即coordinate)并生成坐标感知的注意映射。
我们的坐标注意提供了以下优势。
- 首先,它不仅捕获跨通道信息,还捕获方向感知和位置敏感信息,这有助于模型更准确地定位和识别感兴趣的对象。
- 其次,我们的方法灵活且权重轻,可以很容易地插入mobile network的经典构建块中,如MobileNetV2[34]中提出的inverted residual block和MobileNeXt[49]中提出的sandglass block,通过强调信息表示来增强特征。
- 第三,作为一个预训练的模型,我们的坐标注意可以为mobile network的下游任务带来显著的性能提升,特别是对于那些预测密集的任务(例如语义分割),我们将在实验部分展示这一点。
为了证明所提出的方法相对于以前mobile network的注意方法的优势,我们在ImageNet分类[33]和流行的下游任务(包括目标检测和语义分割)中进行了广泛的实验。通过相当数量的可学习参数和计算,我们的网络在ImageNet上实现了0.8%的性能增益,分类精度位居前1。在目标检测和语义分割方面,我们还观察到,与具有其他注意机制的模型相比,有显著的改进,如图1所示。我们希望我们简单高效的设计能够促进未来mobile network注意力机制的发展。
2. Related Work
在本节中,我们简要回顾了本文的相关文献,包括关于高效网络体系结构设计和注意或非本地模型的前期工作。
2.1. Mobile Network Architectures
最近最先进的mobile network大多基于深度可分离卷积[16]和inverted residual block[34]。
[16] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications.arXiv preprint arXiv:1704.04861, 2017.
[34] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. InCVPR, pages 4510–4520,2018.
HBONet[20]在每个inverted residual block内引入下采样操作,以建模代表性空间信息。ShuffleNet V2[27]在inverted residual block块前后使用 channel split module和channel shuffle module。后来,MobileNetV3[15]结合神经架构搜索算法[50],搜索最佳激活函数和不同深度inverted residual block的expansion ratio。此外,MixNet[39]、EfficientNet[38]和ProxylessNAS[2]也采用不同的搜索策略来搜索深度可分离卷积的最佳卷积核大小或控制网络在expansion ratio、输入分辨率、网络深度和宽度方面的权重标量。最近,Zhou等人[49]重新思考了利用深度可分离卷积的方法,并提出了MobileNeXt,它采用了移动网络的经典bottleneck结构。
2.2. Attention Mechanisms
注意力机制[41,40]已被证明在各种计算机视觉任务中有用,如图像分类[18,17,44,1]和图像分割[14,19,10]。其中一个成功的例子是SENet[18],它简单地压缩每个2D特征图,以有效地建立通道之间的相互依赖关系。CBAM[44]通过引入大尺寸核卷积的空间信息编码,进一步推进了这一想法。后来的工作,如GENet[17]、GALA[22]、AA[1]和TA[28],通过采用不同的空间注意机制或设计高级注意块来扩展这一思想。
Non-local/self-attention网络最近非常流行,因为它们能够建立空间或逐通道注意。典型的例子包括NLNet[43]、GCNet[3]、A2Net[7]、SCNet[25]、GSoP Net[11]或CCNet[19],所有这些都利用非局部机制来捕获不同类型的空间信息。然而,由于自关注模块内部的计算量很大,它们通常被用于大型模型[13,46](Resnet和ResNeXt),但不适用于mobile networks。
与这些利用昂贵且沉重的non-local or self-attention blocks的方法不同,我们的方法考虑了一种更有效的捕获位置信息和通道关系的方法,以增强mobile networks的特征表示。通过将2D global pooling操作分解为两个一维encoding过程,我们的方法比其他具有轻量级属性的注意方法(例如,SENet[18]、CBAM[44]和TA[28])表现得更好。
3. Coordinate Attention
坐标注意块可以看作是一个计算单元,旨在增强mobile networks学习功能的表达能力。它可以采用任何中间特征张量 X = [ x 1 , x 2 , . . . , x C ] ∈ R C × H × W \bf X=[x_1,x_2,...,x_C]\in\mathbb R^{C\times H\times W} X=[x1,x2,...,xC]∈RC×H×W作为输入并将具有相同size的增广表示的变换张量 Y = [ y 1 , y 2 , . . . , y C ] \bf Y=[y_1,y_2,...,y_C] Y=[y1,y2,...,yC]输出到 X {\bf X} X。为了清晰地描述所提出的坐标注意,我们首先回顾在mobile network中广泛使用的SE注意。
3.1. Revisit Squeeze-and-Excitation Attention
如[18]所示,标准卷积本身难以对通道关系建模。显式地构建通道相互依赖关系可以提高模型对信息通道的敏感性,这些信息通道对最终分类决策的贡献更大。
[18] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. InCVPR, pages 7132–7141, 2018.
此外,使用global average pooling还可以帮助模型捕获全局信息,这是一个卷积的缺陷。
在结构上,SE block可以分解为两个步骤:squeeze和excitation,分别用于全局信息嵌入和通道关系的自适应重新校准。给定输入 X X X,第 c c c个通道的squeeze步骤可公式化如下: z c = 1 H × W ∑ i = 1 H ∑ j = 1 W x c ( i , j ) , − − − ( 1 ) z_c=\frac{1}{H\times W}\sum^H_{i=1}\sum^W_{j=1}x_c(i,j),---(1) zc=H×W1i=1∑Hj=1∑Wxc(i,j),−−−(1)
其中 z c z_c zc是与第 c c c个通道相关联的输出。输入

本文提出了一种名为坐标注意力(Coordinate Attention)的新方法,用于改进移动网络的性能。该方法弥补了Squeeze-and-Excitation(SE)注意力机制忽略位置信息的不足,通过一维全局池化沿两个空间方向编码特征,保留位置信息并生成注意映射。在ImageNet分类、目标检测和语义分割任务上,坐标注意力表现出优于SE和CBAM等现有注意力机制的性能,尤其是在密集预测任务中效果显著。
最低0.47元/天 解锁文章
722





