论文翻译：Attentional Feature Fusion

最新推荐文章于 2024-07-13 15:00:00 发布

Sun_ZD

最新推荐文章于 2024-07-13 15:00:00 发布

阅读量1.9k

点赞数 1

分类专栏： DL 文章标签： pytorch 深度学习

本文链接：https://blog.csdn.net/Sun_ZD/article/details/117732930

版权

DL 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Attentional Feature Fusion

摘要
1 引言
2 Related Work
3. Multi-scale Channel Attention(多尺度通道的关注)
4. 注意力特征融合 Attentional Feature Fusion
5. Experiments
6. Conclusion

注意力特征融合

作者：Yimian Dai1
Fabian Gieseke2,3
Stefan Oehmcke3
Yiquan Wu1
Kobus Barnard4
论文地址：WACV2021
发表时间：2021
备注：
论文解析
代码开源 (√MXnet)
代码解析

摘要

特征融合，来自不同层或分支的特征的组合，是现代网络架构的全能部分。它通常通过简单的操作来实现，例如求和或连接（summation or concatenation），但这可能不是最佳选择。
在这项工作中，我们提出了一种统一和一般的方案，即注意力特征融合，适用于大多数常见场景，包括短期和长跳过连接以及成立层内引起的特征融合。
为了更好的熔断器的功能的语义和尺度的功能为了更好地融合出不一致的语义和尺度的功能，我们提出了一种多尺度通道注意力模块，它解决了在不同尺度上给出的融合功能时出现的问题。
我们还证明了特征映射的初始集成可能成为一个瓶颈，这个问题可以通过添加另一个级别的注意来缓解，我们称之为迭代注意特征融合。
具有较少的层或参数，我们的模型在CIF AR-100和Imagenet数据集中优于最先进的网络，这表明特征融合的更复杂的注意机制能够与他们的直接对应相比，始终如一的潜力持续产生更好的结果。我们的代码和训练有素的型号可在线提供。
https://github.com/YimianDai/open-aff

1 引言

卷积神经网络(CNNs)通过深入[11]、扩展[11][36,47]、增加[45]基数和动态细化[14]特征，显著提高了表示能力，这与许多计算机视觉任务的进步相对应。
除了这些策略，本文还研究了网络的另一个组成部分——特征融合，以进一步提高网络的表示能力。
无论是显性还是隐性，有意还是无意，特征融合在现代网络体系结构中无处不在，在以往的文献中也进行了广泛的研究[36,34,11,28,21]。
例如，在InceptionNet家族[36,37,35]中，在同一级别上具有多个大小的过滤器的输出被融合来处理对象大小的大变化。
在残差网络(ResNet)[11,12]及其后续[47,45]中，通过短跳连接将身份映射特征和残差学习特征融合为输出，从而可以训练非常深的网络。
在特征金字塔网络(FPN)[21]和U-Net[28]中，通过长跳连接融合低级特征和高级特征，获得高分辨率和语义强的特征，这对语义分割和目标检测至关重要。
然而，尽管特征融合在现代网络中很流行，但大多数的特征融合工作都集中在构建复杂的路径来将不同内核、组或层中的特征组合起来。
特征融合方法很少得到解决，通常是通过添加或连接等简单操作来实现的，它们仅仅提供了特征映射的固定线性聚合，完全不知道这种组合是否适合特定的对象。

近年来，选择性内核网络(Selective Kernel Networks, SKNet)[19]和ResNeSt[48]被提出，基于全局信道注意机制[14]，实现同一层内多个内核或组的特征的动态加权平均。虽然这些基于注意力的方法是特征融合的非线性方法，但它们仍然存在以下缺点:

(Limited scenarios)有限的场景:SKNet和ResNeSt只关注在同一层的软特征选择，而跳过连接的跨层融合没有得到解决，使得他们的方案很具有启发式。各种特征融合实现虽然有不同的场景，但本质上都面临着相同的挑战，即如何集成不同规模的特征以获得更好的性能。一个能够克服语义不一致性并有效集成不同尺度特征的模块应该能够在各种网络场景中不断提高融合特征的质量。然而，到目前为止，仍然缺乏一种通用的方法，可以统一不同的特征融合场景以一致的方式。
简单的初始集成（Unsophisticated initial integration）:为了将接收到的特征输入到注意模块中，SKNet以一种非自愿但不可避免的方式引入了特征融合的另一个阶段，我们称之为初始集成，并通过添加来实现。
因此，除了关注模块的设计之外，初始集成方式作为其输入，对融合权值的质量也有很大的影响。
考虑到这些特性在规模和语义级别上可能有很大的不一致性，忽略这一问题的简单初始集成策略可能成为瓶颈。
有偏上下文聚合尺度（Biased context aggregation scale）:SKNet和ResNeSt中的融合权值是通过全局通道关注机制[14]生成的，该机制对分布更全局的信息更有优势。然而，图像中的物体在大小上可能有非常大的变化。许多研究强调了在设计cnn时出现的这个问题，即预测者的接受域应该与对象量表范围相匹配[49,31,32,20]。因此，仅仅在全局尺度上聚合上下文信息是有偏的，会削弱小物体的特征。这就产生了一个问题，网络是否能够动态地、自适应地融合接收到的特征，以一种上下文尺度感知的方式。

基于以上观察结果，我们提出了注意特征融合( attentional feature fusionA FF)模块，试图回答如何在各种特征融合场景下实现统一的方法，并解决上下文聚合和初始集成的问题。AFF框架将基于注意力的特性融合从同层场景概括为跨层场景，包括短、长跳过连接，甚至是在AFF内部的初始集成。它提供了一种通用的、一致的方法来提高各种网络的性能，例如，InceptionNet、ResNet、ResNeXt[45]和FPN，只需用提出的AFF模块替换现有的特征融合算子。此外，AFF框架支持逐步细化初始集成，即融合权值生成器的输入，将接收到的特征与另一个AFF模块进行迭代集成，我们称之为迭代注意特征融合(iAFF)。

为了缓解尺度变化和小对象引起的问题，我们主张注意模块也应该对不同尺度对象的不同接受域的上下文信息进行聚合。
具体来说，我们提出了多尺度通道注意模块(Multi-Scale Channel Attention Module, MS-CAM)，这是一种简单而有效的方案来弥补不同尺度间的特征不一致性，用于注意特征融合。
我们的关键观察是，尺度不是空间关注的专有问题，通过改变空间池的大小，通道关注也可以有全局之外的尺度。
MS-CAM通过将多尺度上下文信息沿通道维进行聚合，可以同时强调分布更全局的大目标和突出分布更局部的小目标，便于网络识别和检测极端尺度变化下的目标。

2 Related Work

2.1. Multi-scale Attention Mechanism 多尺度的注意机制

物体的尺度变化是计算机视觉研究的关键问题之一。

为了解决这个问题，一种直观的方法是利用多尺度图像金字塔[27,2]，在多尺度上识别目标，并使用非最大抑制将预测结合起来。
另一种方法是利用cnn固有的多尺度层次特征金字塔来近似图像金字塔，将多层特征融合，获得高分辨率的语义特征[10,28,21]。

深度学习中的注意机制模仿人类视觉注意机制[4,7]，最初是在全局范围内发展起来的。例如，自注意矩阵乘法绘制了句子[39]中的每个单词或图像中的每个像素的全局依赖关系[6,42,1]。

压缩激励网络(SENet)将全局空间信息压缩到信道描述符中，以捕获信道依赖性[14]。

最近，研究人员开始考虑注意机制的规模问题。与上述处理cnn尺度变化的方法类似，多尺度注意机制是通过将多尺度特征输入注意模块或将多尺度特征上下文组合到注意模块中来实现的。

在第一种类型中，多个尺度上的特征或其连接到注意模块中的特征生成了多尺度的注意图，而注意模块内部的特征上下文聚合规模仍然是单一的[2,3,43,5,33,38]。

第二种类型，也被称为多尺度空间注意，通过注意模块内部不同大小的卷积核[18]或金字塔[18,41]聚合特征上下文。

所提出的MS-CAM遵循了ParseNet[23]的思想，在cnn中结合局部和全局特征，在注意模块中融合多尺度特征上下文的空间注意的思想，但至少在两个重要方面有所不同:

MS-CAM提出了通道注意中的尺度问题，并通过点态卷积而不是不同大小的核来实现。
2)与骨干网不同，MS-CAM在信道注意模块内聚合局部和全局特征上下文。据我们所知，多尺度通道关注从未被讨论过。

2.2. Skip Connections in Deep Learning在深度学习中跳过连接
跳跃连接已经成为现代卷积网络的一个重要组成部分。

短跳连接，即残差块内部添加的身份映射捷径，为梯度在反向传播过程中不中断地流动提供了备选路径[11,45,47]。

长跳跃连接通过将较细节的特征从较低层次桥接到较粗层次的高级语义特征，帮助网络获得高分辨率的语义特征[15,21,28,24]。

尽管连接特征的融合被用于将特征与不同路径[8]相结合，但连接特征的融合通常是通过加法或串联来实现的，它以固定的权重分配特征，而不考虑内容的变化。

最近，一些基于注意力的方法，如Global Attention Upsample(GAU)[18]和skipatattention (SA)[46]，被提出使用高级特征作为指导来调制长跳过连接中的低级特征。

然而，调制特征的融合权值仍然是固定的。据我们所知，是Highway Networks 络首次在短跳连接[34]中引入了选择机制。

本文提出的注意跳跃连接可以看作是后续研究，但在三点上有所不同:
1)Highway Networks 采用一种简单的全连接层，只能生成一个标量的融合权重，而我们提出的MSCAM生成的融合权重与特征地图的大小相同，以元素明智的方式实现动态软选择。
2)Highway Networks只使用一个输入特征来产生权重，而我们的AFF模块同时知道这两个特征。
3)我们指出了初始特征集成的重要性，并提出了iAFF模块作为解决方案。

3. Multi-scale Channel Attention(多尺度通道的关注)

3.1. Revisiting Channel Attention in SENet( 重访SENet通道的注意力)

给定中间特征 $\mathbf{X} \in \mathbb{R}^{C \times H \times W}$ 其中C通道和大小为H×W的特征映射，则SENet中的通道注意权 $\mathbf{w} \in \mathbb{R}^{C}$ 可计算为
$\mathbf{w}=\sigma(\mathbf{g}(\mathbf{X}))=\sigma\left(\mathcal{B}\left(\mathbf{W}_{2} \delta\left(\mathcal{B}\left(\mathbf{W}_{1}(g(\mathbf{X}))\right)\right)\right)\right)$

其中:
$\mathbf{g}(\mathbf{X}) \in \mathbb{R}^{C}$ 表示全局特征上下文，
$g(\mathbf{X})=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{X}_{[:, i, j]}$ 为全局平均池化(GAP)。
$\delta$ 表示整流线性单元(ReLU) [25]，
$\mathcal{B}$ 表示批标准化(Batch Normalization)[16]。
σ是Sigmoid函数。
通过两个完全连接(FC)层的瓶颈实现的，其中 $\mathbf{W}_{1} \in \mathbb{R}^{\frac{C}{r} \times C}$ 是一个降维层，而 $\mathbf{W}_{2} \in \mathbb{R}^{C \times \frac{C}{r}}$ 是一个增维层。
r为信道压缩比。

我们可以看到通道注意将每个大小为H × W的feature map压缩成一个标量。
这种极端粗糙的描述符倾向于强调全局分布的大对象，可能会消除小对象中存在的大部分图像信号。
然而，检测非常小的对象是最先进的网络[32]的关键性能瓶颈。
例如，COCO的难度很大程度上是由于大多数对象实例小于图像面积的1%[22,31]。
因此，全局频道关注可能不是最好的选择。
在注意模块中对多尺度特征上下文进行聚合，以缓解尺度变化和小对象实例引起的问题。

3.2. Aggregating Local and Global Contexts(聚合本地和全局上下文)
在这一部分，我们详细描述了提出的多尺度通道注意模块(MS-CAM)。
其关键思想是通过改变空间池的大小，可以在多个尺度上实现通道关注。
为了尽可能地维护它，我们只需要将本地上下文添加到attention模块内的全局上下文中。
我们选择逐点卷积(PWConv)作为本地信道上下文聚合器，它只利用每个空间位置的逐点信道交互。

为保存参数，本地通道上下文 $\mathbf{L}(\mathbf{X}) \in \mathbb{R}^{C \times H \times W}$ 通过瓶颈结构计算如下:

$\mathbf{L}(\mathbf{X})=\mathcal{B}\left(\operatorname{PWConv}_{2}\left(\delta\left(\mathcal{B}\left(\mathrm{PWConv}_{1}(\mathbf{X})\right)\right)\right)\right)$
PWconv1和PWConv2areC的核尺寸分别为r×C × 1 × 1
PWConv2的核尺寸分别为 $\times \frac{C}{-} \times 1 \times 1$ 。

值得注意的是，L(X)与输入特征具有相同的形状，可以保留和突出低级特征中的细微细节。

给定全局信道上下文g(X)和局部信道上下文L(X)，可得到MS-CAM细化特征 $\mathbf{X}^{\prime} \in \mathbb{R}^{C \times H \times W}$ :

$\mathbf{X}^{\prime}=\mathbf{X} \otimes \mathbf{M}(\mathbf{X})=\mathbf{X} \otimes \sigma(\mathbf{L}(\mathbf{X}) \oplus \mathbf{g}(\mathbf{X}))$

其中 $\mathbf{M}(\mathbf{X}) \in \mathbb{R}^{C \times H \times W}$ 为MS-CAM生成的注意权值。⊕表示广播加法，⊗表示元素方向的乘法。

在这里插入图片描述

4. 注意力特征融合 Attentional Feature Fusion

4.1. Unification of Feature Fusion Scenarios特征融合场景的统一

给定两个特征映射 $\mathbf{X}, \mathbf{Y} \in \mathbb{R}^{C \times H \times W}$ ，我们默认假设Y是接受域更大的feature map。

更具体地说:

同层场景:X是一个3 × 3内核的输出，Y是一个5 × 5内核在InceptionNet中的输出;
短跳连接场景:X为标识映射，Y为ResNet块中学习到的残差;
长跳连接场景:X是低级特征映射，Y是特征金字塔中的高级语义特征映射。

基于多尺度信道注意模块M，注意特征融合(AFF)可以表示为

$\mathbf{Z}=\mathbf{M}(\mathbf{X} \uplus \mathbf{Y}) \otimes \mathbf{X}+(1-\mathbf{M}(\mathbf{X} \uplus \mathbf{Y})) \otimes \mathbf{Y},$

其中
$\mathbf{Z} \in \mathbb{R}^{C \times H \times W}$ 为融合特征，
$\uplus$ 为初始特征集成。

在本小节中，为了简单起见，我们选择以元素为基础的求和作为初始积分。

该AFF在图2（a）中示出，其中虚线表示 $\mathbf{1}-\mathbf{M}(\mathbf{X} \uplus \mathbf{Y})$ 。

应该注意的是，融合权重 $\mathbf{M}(\mathbf{X} \uplus \mathbf{Y})$ 由0到1之间的实数组成，
所以 $\mathbf{1}-\mathbf{M}(\mathbf{X} \uplus \mathbf{Y})$ 是这样的，它使网络能够在X和Y之间进行软选择或加权平均值y。

在这里插入图片描述
我们总结了不同的深度网络特征融合公式如表1所示。

在这里插入图片描述
G为全局注意机制。

虽然各种特征融合场景的多种方法之间存在着许多实现差异，但一旦被抽象成数学形式，这些细节上的差异就消失了。
因此，可以通过精心设计的方法统一这些特征融合场景，从而用这种统一的方法取代原有的融合操作，从而提高所有网络的性能。

从表1可以进一步看出，除了权值生成模块G的实施外，目前最先进的融合方案主要在两个关键点上有所不同:
(a)上下文感知水平。线性方法，如加法和连接是完全上下文无关的。特征细化和调制是非线性的，但只部分意识到输入特征映射。在大多数情况下，他们只利用高级特性图。完全上下文感知的方法利用这两种输入特征图作为指导，但代价是提出初始集成问题。
(b)细化、调制、选择。在软选择方法中，应用于两个特征映射的权值之和必然为1，而细化和调制则不是这样。

4.2. Iterative Attentional Feature Fusion迭代注意特征融合
与部分上下文感知方法[18]不同，完全上下文感知方法有一个不可避免的问题，即如何在初始阶段集成输入特性。

初始集成质量作为关注模块的输入，会对最终的融合权重产生深远的影响。
由于这仍然是一个特征融合问题，一种直观的方法是用另一个注意模块来融合输入特征。
我们将这种两阶段方法称为迭代注意特征融合(iAFF)，如图2(b)所示。将式(4)中的初始积分X⊎Y重新表示为
$\mathbf{X} \uplus \mathbf{Y}=\mathbf{M}(\mathbf{X}+\mathbf{Y}) \otimes \mathbf{X}+(1-\mathbf{M}(\mathbf{X}+\mathbf{Y})) \otimes \mathbf{Y}$

在这里插入图片描述

4.3. Examples: InceptionNet, ResNet, and FPN

为了验证所提出的AFF/iAFF方案是统一的、通用的方案，我们选择ResNet、FPN和InceptionNet作为最常见的场景:短、长跳过连接以及同层融合。
将AFF/iAFF应用于现有的网络是很简单的，可以替换原来的加法或串联。
具体来说，我们将inception模块中的连接以及ResNet块(ResBlock)和FPN中的添加替换为注意网络，我们将其分别称为ff - inception模块、ff -ResBlock和ff -FPN。
这种替换和我们提出的架构方案如图3所示。
在这里插入图片描述

iAFF是AFF的一个特例，所以不需要另一个例子。

5. Experiments

在实验评估中，我们使用了以下基准数据集:
在同层InceptionNet和短跳连接ResNet场景下，使用CIFAR-100[17]和ImageNet[29]进行图像分类;
在长跳连接FPN场景下，使用StopSign (COCO数据集[22]的子集)进行语义分割。
具体设置如表2所示。
在这里插入图片描述

b 是用于按深度扩展网络的每个阶段的ResBlock号。
请注意，我们的CIFAR-100实验将图像分类为20个超类，而不是100个类。
它是MXNet/Gluon中CIFAR100类的默认设置。
我们没有注意到它，直到我们的github repo在相机准备日的一个bug。
但是，由于所有的CIFAR-100实验都是在同一个类号上进行的，所以我们从实验结果中得出的结论仍然成立。
有关更多的实施细节，请参阅补充材料和我们的代码。

5.1. Ablation Study
5.1.1 Impact of Multi-Scale Context Aggregation多尺度上下文聚合的影响
为了研究多尺度上下文聚合的影响，在图4中，我们构建了“Global + Global”和“Local + Local”两个消融模块，将两个上下文聚合分支的尺度设置为相同的，包括Global和Local。
在这里插入图片描述

拟议的AFF在这里被称为“Global +Local”。它们都有相同的参数号。唯一的区别是它们的上下文聚合规模。表3给出了它们在各种主机网络上的CIFAR-100、ImageNet和StopSign上的比较。
在这里插入图片描述

可以看出，多尺度上下文聚合(Global + Local)在所有情况下都优于单尺度上下文聚合。结果表明，多尺度特征背景对注意特征融合至关重要。

5.1.2 Impact of Feature Integration Type特性集成类型的影响
在表1中，我们进一步研究了哪种特征融合策略是最好的。为了公平起见，我们在提出的MS-CAM的基础上重新实现了这些方法。
由于MS- cam不同于原来的注意力模块，我们在这些新实现的方案中添加了一个前缀“MS-”。为保持参数预算不变，这里MS-GAU、MSSE、MS-SA和AFF中的信道压缩比r为2，而iAFF中的r为4。

表4给出了三种情况下的比较结果，
在这里插入图片描述

从中可以看出:

1)与线性方法即加法和级联相比，具有注意机制的非线性融合策略总是具有更好的性能;
2)我们的完全情境感知和选择性策略略优于其他策略，这表明它应该更适合于多种功能集成;
3)所提出的iAFF方法在大多数情况下明显优于其他方法。

实验结果表明，早期融合质量对注意特征融合效果有较大影响，再进行一次注意特征融合可以进一步提高融合效果。然而，这种改进可能是以增加优化难度为代价的。
我们注意到，当网络深度随着b从3增加到4时，iAFFResNet的性能没有提高，而是下降了。

5.1.3 Impact on Localization and Small Objects对本地化和小对象的影响
为了研究提出的MS-CAM对目标定位和小目标识别的影响，我们将GradCAM[30]应用于ResNet-50、SENet-50和af -ResNet-50，用于ImageNet数据集图像的可视化结果，如图6所示。
在这里插入图片描述

对于一个特定的class，Grad-CAM的结果清楚地显示了该网络的参与区域。
这里，我们展示了预测类的热图，错误预测的图像用符号表示为×。
预测的类名和他们的softmax分数也显示在热图的底部。

从图6的上半部分可以清楚地看到，AFF-ResNet-50的参与区域与标记的目标高度重叠，这表明它能够很好地定位目标，利用目标区域的特征。
与此相反，基线ResNet-50的定位能力相对较差，很多情况下错位了被关注区域的中心。
虽然SENet-50能够定位真正的目标，但参与的区域过大，包括许多背景成分。
因为SENet-50只有利用全球频道的关注,这是偏见的背景下,全球范围内,而提出MS-CAM也聚集本地频道上下文中,这有助于网络参加对象较少的背景杂波,也有利于小目标识别。
在图6的下半部分，我们可以清楚地看到AFF-ResNet-50可以正确地预测小尺度的物体，而ResNet-50在大多数情况下都失败了。

5.2. Comparison with State-of-the-Art Networks与先进网络的比较

为了证明本文提出的注意特征融合替代原有的融合操作可以提高网络性能，我们将基于同一主机网络的AFF和iAFF模块与其他注意模块在不同特征融合场景下进行了比较。

图7为所有网络随着网络深度逐渐增加的对比结果。

在这里插入图片描述

可以看出:

1)比较SKNet / SENet GAU-FPN AFF-InceptionNet / AFF-ResNet / AFF-FPN,我们可以看到,AFF或iAFF集成网络是更好的在所有情况下,这表明我们(迭代)注意力特征融合方法不仅性能优越,但良好的通用性。
我们认为改进的性能来自于注意模块内提出的多尺度通道上下文聚合。

2)比较基于if -based网络和基于if -based网络的性能，需要注意的是，本文提出的迭代注意特征融合方案可以进一步提高性能。

3)用提出的AFF或iAFF模块代替简单的加法或串联，我们可以得到一个更有效的网络。例如，在图7(b)中，iaf -ResNet (b = 2)获得了与基线ResNet (b = 4)相似的性能，而只需要54%的参数。

最后，我们在ImageNet上用最先进的网络验证了基于AFF/iAFF网络的性能。
结果如表5所示。
在这里插入图片描述

结果表明，在较小的参数预算下，所提出的基于AFF/iAFF的网络可以较先进的网络提高性能。
值得一提的是，在ImageNet上，提出的iaf - resnet -50在只有60%参数的情况下，比gatherd - excite -θ+ResNet-101[13]要好0.3%。这些结果表明，短跳连接的特征融合对ResNet和ResNeXt有很大的影响。
我们不应该盲目地增加网络的深度，而应该更加注重特征融合的质量。

6. Conclusion

我们将注意机制的概念概括为一种选择性的、动态的特征融合类型，适用于大多数场景，即同一层、短跳跃、长跳跃连接以及注意机制内部的信息整合。
为了克服输入特征之间语义和尺度不一致的问题，我们提出了多尺度通道注意模块，该模块将局部通道上下文添加到全局通道统计中。
进一步指出，接收特征的初始整合是基于注意的特征融合的瓶颈，可以通过增加另一层次的注意，即迭代注意特征融合来缓解这一瓶颈。
我们通过详细的消融研究验证了语境意识水平、特征整合类型和语境聚集尺度对注意机制的个体影响。在CIFAR-100和ImageNet数据集上的实验结果表明，我们的模型在每个网络的层数和参数更少的情况下优于先进的网络，这表明人们应该注意深度神经网络的特征融合，更复杂的特征融合注意机制有可能持续产生更好的结果。

Sun_ZD

关注

1
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Attentional Feature Fusion

A Spatial-Temporal Attention Model forHuman Trajectory Prediction摘要1 引言2 Related Work3 Method4 Performance Analysis5 ConclusionHuman Trajectory Prediction)注意力特征融合作者：Yimian Dai1Fabian Gieseke2,3Stefan Oehmcke3Yiquan Wu1Kobus Barnard4论文地址：WACV2021
复制链接

扫一扫

专栏目录