EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network

最新推荐文章于 2024-08-08 07:38:33 发布

zzzz~08

最新推荐文章于 2024-08-08 07:38:33 发布

阅读量721

点赞数 1

文章标签：深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/qq_46563097/article/details/133743871

版权

摘要

最近，已经证明通过将注意力模块嵌入到其中可以有效地提高深度卷积神经网络的性能。在这项工作中，提出了一种新的轻量级有效的注意方法——金字塔挤压注意(PSA)模块。通过将3x3 卷积替换为 ResNet bottleneck中的 PSA 模块，获得了一个名为 Efficient Pyramid Squeeze Attention (EPSA)的新型表示块。EPSA块可以很容易地作为即插即用组件添加到成熟的骨干网中，并可以著提高模型性能。因此，通过堆叠这些 ResNet 风格的EPSA 块，在这项工作中开发了一个名为 EPSANet的简单高效的主干架构。相应地，所提出的EPSANet可以为各种计算机视觉任务提供更强的多尺度表示能力，包括但不限于图像分类、目标检测、实例分割等。在没有花里胡哨的情况下，所提出的EPSANet的性能优于最先进的通道注意方法。与SENet-50相比，ImageNet数据集上的Top-1精度提高了1.93%，目标检测的top-1精度提高了+2.7box AP，在MS-COCO数据集上使用Mask-RCNN提高了+1.7 mask AP进行实例分割。我们的源代码可在以下网址获得:https://github.com/murufeng/EPSANet。

引言

注意机制广泛应用于图像分类、目标检测、实例分割、语义分割、场景解析和动作定位等许多计算机视觉领域[1,2,3,4,5,6,7]。具体来说，有两种类型的注意力方法，即通道注意力和空间注意力。最近，已经证明可以通过使用通道注意、空间注意或两者来实现显着的性能提升 [8, 9, 10, 11, 12]。最常用的通道注意方法是Squeeze-and Excitation (SE)模块[13]，它可以以相当低的成本显著提高性能。SENet的缺点是它忽略了空间信息的重要性。因此，提出了Bottleneck注意模块(BAM)[14]和卷积块注意模块(CBAM)[5]来有效地结合空间和通道注意来丰富注意图。然而，仍然存在两个重要且具有挑战性的问题。第一个是如何有效地捕获和利用不同尺度的特征图的空间信息来丰富特征空间。第二个是通道或空间注意只能有效地捕获局部信息，而不能建立远程通道依赖性。相应地，提出了许多方法来解决这两个问题。提出了一种基于多尺度特征表示和跨通道信息交互的方法，如PyConv[15]、Res2Net[16]和HS-ResNet[17]。另一方面，一个远程通道依赖可以建立如[2,18,19]所示。然而，上述所有方法都带来了更高的模型复杂性，因此网络计算负担沉重。基于上述观察，我们看到有必要开发一种低成本但有效的注意力模块。在这项工作中，提出了一种名为 Pyramid Squeeze Attention (PSA) 的低成本和高性能的新模块。所提出的 PSA 模块具有在多个尺度上处理输入张量的能力。具体来说，通过使用多尺度金字塔卷积结构来整合输入特征图的信息。同时，我们可以通过压缩输入张量的通道维数，有效地从每个通道特征图中提取不同尺度的空间信息。通过这样做，可以更准确地合并上下文特征的邻居尺度。最后，通过提取多尺度特征图的通道注意力权重来构建跨维度交互。Softmax操作用于重新校准相应通道的注意权重，从而建立远程通道依赖性。因此，通过将 3x3 卷积替换为 ResNet 瓶颈块中的 PSA 模块，获得了一个名为 Efficient Pyramid Squeeze Attention (EPSA) 的新块。此外，通过将这些EPSA块堆叠为ResNet样式，提出了一种名为EPSANet的网络。如图1所示，所提出的EPSANet不仅在Top-1精度方面优于现有技术，而且在所需参数方面也更有效。这项工作的主要贡献总结如下：

1.提出了一种新的高效金字塔挤压注意(EPSA)块，它可以在更细粒度的层次上有效地提取多尺度空间信息，并发展远程信道依赖性。所提出的EPSA块非常灵活和可扩展，因此可以应用于大量计算机视觉任务的网络体系结构。

2.提出了一种新的主干架构EPSANet，它可以学习更丰富的多尺度特征表示，并自适应地重新校准跨维通道注意权重。

3.大量的实验表明，所提出的EPSANet在ImageNet和COCO数据集上的图像分类、目标检测和实例分割方面都能取得良好的效果。

方法

Revisting Channel Attention（恢复通道注意）

Channel attention：通道注意机制允许网络选择性地加权每个通道的重要性，从而生成更多信息的输出。令 X ∈ $R^{C\times H\times W}$ 表示输入特征图，其中量 H、W、C 分别表示其高度、宽度、输入通道数。SE块由两部分组成：squeeze和excitation，分别用于编码全局信息并自适应地重新校准通道关系。通常，通道统计可以通过使用全局平均池化来生成，该全局平均池化用于将全局空间信息嵌入到通道描述符中。全局平均池化算子可以用以下等式计算:

SE块中第c个通道的注意力权重可以写成：

其中符号δ表示接收线性单元(ReLU)操作，如[26]所示， $W_{0}$ ∈ $R^{C\times \frac{C}{r}}$ ， $W_{1}$ ∈ $R^{\frac{C}{r} \times C}$ 表示全连接(FC)层。通过两个全连接层，可以更有效地组合通道之间的线性信息，有助于高通道和低通道维度信息的交互。符号 σ 表示激励函数，在实践中通常使用 Sigmoid 函数。通过使用激励函数，我们可以在通道交互后为通道分配权重，从而更有效地提取信息。上述生成通道注意权重的过程在[13]中被命名为SEWeight模块，SEWeight模块示意图如图2所示。

PSA Module

这项工作的动机是构建一个更高效和有效的通道注意机制。因此，提出了一种新颖的金字塔挤压注意力（PSA）模块。如图 3 所示，PSA 模块主要分四个步骤实现。首先，通过实现所提出的 Squeeze 和 Concat (SPC) 模块，获得通道级多尺度特征图。其次，利用SEWeight模块提取不同尺度特征图的注意力，得到通道注意向量。第三，利用Softmax重新校准信道注意向量，得到多尺度信道的重新校准权值。第四，将逐元素乘积的操作应用于重新校准的权重和相应的特征图。最后，可以获得多尺度特征信息更丰富的细化特征图作为输出。

如图 4 所示，在所提出的 PSA 中实现多尺度特征提取的基本算子是 SPC，我们以多分支方式提取输入特征图的空间信息，每个分支的输入通道维度为 C。通过这样做，我们可以获得更丰富的输入张量的位置信息，并以并行的方式在多个尺度上处理它。因此可以获得包含单一类型内核的特征图。相应地，通过在金字塔结构中使用多尺度卷积核可以生成不同的空间分辨率和深度。并通过压缩输入张量的通道维数，可以有效地提取每个通道特征图上不同尺度的空间信息。最后，每个不同尺度的特征图都具有公共通道维数C'= $\frac{C}{S}$ ，i = 0,1，···，S−1。注意C应该可以被S整除。对于每个分支，它独立学习多尺度空间信息，并以局部方式建立跨通道交互。然而，随着内核大小的增加，参数数量的巨大改进将导致。为了在不增加计算成本的情况下处理不同核尺度的输入张量，引入了一种群卷积方法并将其应用于卷积核。此外，我们设计了一种在不增加参数数量的情况下选择组大小的新标准。多尺度内核大小与组大小之间的关系可以写成：

其中量 K 是内核大小，G 是组大小。上述方程已通过我们的消融实验得到验证，特别是当 k × k 等于 3 × 3 并且 G 的默认为 1 时。最后，多尺度特征图生成函数由下式给出

其中第 i 个内核大小 $k_{i}$ = 2 × (i + 1) + 1，第 i 个组大小 $G_{i}$ = $2^{\frac{k_{i}-1}{2}}$ 和 $F_{i}$ ∈ $R^{{C}' \times H \times W}$ 表示不同尺度的特征图。整个多尺度预处理特征图可以通过串联方式得到

(所提出的具有 S=4 的 Squeeze 和 Concat (SPC) 模块的详细说明，其中“Squeeze”表示在通道维度上平均挤压，K 是内核大小，G 是组大小，“Concat”表示连接通道维度中的特征。)

其中 F ∈ $R^{C \times H \times W}$ 是获得的多尺度特征图。通过从多尺度预处理特征图中提取通道注意力权重信息，得到不同尺度的注意力权重向量。在数学上，注意力权重的向量可以表示为

其中 $Z_{i}$ ∈ $R^{{C}' \times 1\times 1}$ 是注意力权重。SEWeight模块用于从不同尺度的输入特征图中获取注意力权重。通过这样做，我们的 PSA 模块可以融合不同尺度的上下文信息，并为高级特征图产生更好的像素级注意力。此外，为了实现注意力信息的交互，在不破坏原始通道注意向量的情况下融合交叉维向量。因此，整个多尺度通道注意向量以串联方式得到

其中⊕是concat算子， $Z_{i}$ 是来自 $F_{i}$ 的注意值，Z是多尺度注意权重向量。跨通道使用soft attention来自适应地选择不同的空间尺度，这是由紧凑的特征描述符 $Z_{i}$ 引导的。软分配权重由下式给出:

其中 Softmax 用于获得多尺度通道的重新校准权重 $att_{i}$ ，其中包含空间上的所有位置信息和通道中的注意力权重。通过这样做，实现了局部和全局通道注意力之间的交互。接下来，对特征重新校准的通道注意进行拼接融合拼接，得到整个通道注意向量为

其中 att 表示注意力交互后的多尺度通道权重。然后，我们将多尺度通道注意 $att_{i}$ 的重新校准权重与相应的尺度 $F_{i}$ 的特征图相乘为:

其中 $\odot$ 表示信道乘法， $Y_{i}$ 表示得到的多尺度信道注意权重的特征映射。连接算子比求和更有效，因为它可以在不破坏原始特征图信息的情况下积分保持特征表示。总之，获得细化输出的过程可以写成

如上所述，我们提出的 PSA 模块可以将多尺度空间信息和跨通道注意力集成到每个特征组的块中。因此，我们提出的 PSA 模块可以获得更好的局部和全局通道注意力信息交互。

Network Design(网络设计)

如图 5 所示，通过将 3x3 卷积替换为 ResNet 机器人瓶颈块中相应位置的 PSA 模块，进一步获得了一个名为 Efficient Pyramid Squeeze Attention (EPSA) 块的新块。我们的PSA模块将多尺度空间信息和跨通道注意集成到EPSA块中。因此，EPSA块可以在更细粒度的层次上提取多尺度空间信息，并发展远程通道依赖性。相应地，通过将所提出的EPSA块堆叠为ResNet样式，开发了一种名为EPSANet的新型高效骨干网。提出的EPSANet继承了EPSA块的优点，具有较强的多尺度表示能力，可以自适应地重新校准跨维信道权值。如表1所示，EPSANet的两种变体，提出了EPSANet(Small)和EPSANet(Large)。对于所提出的EPSANet(Small)，在SPC模块中，内核和组大小分别设置为(3,5,7,9)和(1,4,86)。所提出的 EPSANet(Large) 具有更高的组大小，并且在 SPC 模块中设置为 (32,32,32,32,32)。

实验

实验细节

对于图像分类任务，我们使用广泛使用的ResNet[27]作为骨干模型，并在ImageNet[32]数据集上进行了实验。训练配置设置为[16,27,13]中的参考。因此，实现了标准的数据增强方案，并通过随机水平翻转和归一化将输入张量的大小裁剪为 224 × 224。优化是通过使用权重衰减为 1e-4 的随机梯度下降 (SGD) 执行的，动量为 0.9，小批量大小为 256。标签平滑正则化 [33] 在训练期间使用系数值为 0.1。学习率最初设置为 0.1，在总共 120 个 epoch 后每 30 个 epoch 减少 10 倍。对于目标检测任务，ResNet-50 和 FPN [34] 被用作主干模型，我们在 MS-COCO [36] 数据集上使用了三个具有代表性的检测器 Faster RCNN [24]、Mask RCNN [22] 和 RetinaNet [35]。默认配置设置是输入图像的较短边调整为800。SGD采用权值衰减为1e-4，动量为0.9，批处理大小为12个epoch内每个GPU 2。学习率设置为 0.01，在第 8 个和第 11 个 epoch 分别降低了 10 倍。例如分割任务，我们采用了主流检测系统Mask R-CNN[22]和FPN伴随。训练配置和数据集的设置类似于对象检测的设置。最后，所有检测器均由 MMDetection 工具包 [37] 实现，所有模型都在 8 个 Titan RTX GPU 上进行训练。

ImageNet上的图像分类

表2显示了我们的EPSANet与ResNet上具有50层和101层的现有技术的比较结果。对于Top-1的精度，所提出的EPSANet-50（Small）实现了比ResNet-50高2.29%的差距，并且使用的参数减少了11.7%，所需的计算成本降低了12.1%。此外，与SENet-101相比，EPSANet-50（Small）具有几乎相同的Top-1精度，可以节省54.2%的参数存储和53.9%的计算资源。EPSANet-101（Small）在Top-1精度上分别优于原始ResNet-101和SENet101 1.6%和0.81%，并节省了约12.7%的参数和21.1%的计算资源。与SRM、ECANet和AANet相比，我们的EPSANet-101（小型）在ResNet-101上具有类似的Top-1精度，计算成本降低了约12.7%。此外，我们的EPSANet-50（Large）在准确性方面表现出最佳性能，与所有其他注意力模型相比，实现了相当大的改进。具体而言，EPSANet-50（大）在Top-1精度方面分别优于SENet、ECANet和FcaNet约1.93%、1.16%和0.12%。在相同数量的参数下，与SENet101和CBAM相比，我们的EPSANet-101（Large）分别实现了约1.76%和0.89%的显著改进。总之，上述结果表明，我们的PSA模块以低得多的计算成本获得了极具竞争力的性能。

（ImageNet上各种注意力方法在网络参数（以百万计）、每秒浮点运算（FLOP）、Top-1和Top-5验证精度（%）方面的比较。）

MS COCO上的目标检测

如表 3 所示，我们提出的模型可以实现目标检测任务的最佳性能。与 ImageNet 上的分类任务类似，所提出的 EPSANet-50(Small) 以更少的参数和更低的计算成本大大优于 SENet-50。与其他注意方法相比，EPSANet-50(Large) 可以达到最佳性能。从复杂性（在参数和 FLOP 方面）的角度来看，与 SENet50 相比，EPSANet-50(Small) 提供了高竞争性能，即 Faster-RCNN、Mask-RCNN、RetinaNet 上的边界框 AP 高 1.5%、1.3% 和 1.1%。更重要的是，与SENet50相比，EPSANet-50(Small)在Faster RCNN、Mask RCNN和RetinaNet上分别进一步将参数数量减少到87.5%、88.3%和86.4%。与ResNet-50相比，EPSANet-50(Large)能够在上述三个检测器上提高约4%的平均精度。值得注意的是，最引人注目的性能改进出现在APL的测量中。与FcaNet相比，我们提出的EPSANet-50(Large)在Faster-RCNN和Mask-RCNN检测器上的性能分别提高了1.9%和1.1%。结果表明，所提出的EPSANet具有良好的泛化能力，可以很容易地应用于其他下游任务。

MS COCO 上的实例分割

例如分割，我们的实验是通过在 MS COCO 数据集上使用 Mask R-CNN 实现的。如表 4 所示，我们提出的 PSA 模块大大优于其他通道注意方法。具体来说，我们的 EPSANet-50(Large) 超过了现有方法中可以提供最佳性能的 FcaNet，AP、AP50 和 AP75 分别高出约 0.9%、0.4% 和 1.4%。这些结果验证了我们提出的 PSA 模块的有效性。

消融实验

内核和组大小如表 5 所示，我们调整了组大小以验证我们的网络在 ImageNet [32] 数据集上的有效性。通过增加内核大小并行会导致参数数量显着增加。为了利用多尺度在空间域的位置信息而不增加计算成本，我们对不同尺度的每个特征图独立应用群卷积。通过适当调整组大小，参数的数量和计算成本可以减少等于子组数量的因子。如表 5 所示，我们提出的 EPSANet 可以实现性能和模型复杂性之间的良好平衡。

总结

在本文中，提出了一种名为 Pyramid Squeeze Attention(PSA) 的有效轻量级即插即用注意力模块。所提出的 PSA 模块可以充分提取通道注意力向量中跨维度的大规模空间信息和重要特征。所提出的高效 Pyramid Squeeze Attention(EPSA) 块可以更细粒度地提高多尺度表示能力并开发远程通道依赖性。所提出的 EPSANet 可以有效地区分多尺度上下文特征和图像级分类信息。通过广泛的定性和定量实验，验证了所提出的 EPSANet 与其他传统通道注意方法相比，可以在图像分类、对象检测和实例分割方面实现最先进的性能。我们将在未来的工作中研究将 PSA 模块添加到更轻量级的 CNN 架构中的效果。