论文阅读之：Residual Attention Network for Image Classification

最新推荐文章于 2024-07-25 23:06:58 发布

暖仔会飞

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量3.5k

点赞数 1

分类专栏：论文阅读与代码复现文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/qq_42902997/article/details/122677670

版权

24 篇文章 15 订阅

订阅专栏

论文贡献

提出了 residual attention network
attention 结合了残差结构，可以应付更深层的训练
attention 模块采用了 bottom-up top-down 这种先降采样再升采样的方式来产生和融合不同尺度的特征图，这种结构受启发于 stacked hourglass 结构

采用了两个分支：
- mask 分支，采用了先降采样再升采样来获取不同维度的特征，然后对他们进行整合最后产生对应的 attention mask，这个 mask 与主干网络的分支进行乘积，得到 attention map
- 主干分支（传统的 resnet，ResNetXt，Inception 网络）

在这里插入图片描述

主干网络 $T$ 将输入 $x$ 进行处理得到 $T_{i,c}(x)$ 其中 $i$ 代表了所有的空间位置， $c$ 代表了当前 $x$ 的通道数量，即按照通道，逐元素地将 $M_{i,c}(x)$ 和 $T_{i,c}(x)$ 相乘，得到一个更加有重点的 “增强的特征图”，即 attention map $H_{i,c}(x)$
文中说，这个 attention mask 不仅可以充当在网络进行前向传播时候的特征筛选器（feature selector），也可以作为梯度反向传播时候的 gradient update filter（梯度更新过滤器），因为按照下面的公式：
- 其中 $\theta, \phi$ 分别是 mask 和主干网络 $T$ 需要学习的参数，按照公式（1）的描述，我们优化的目标应该是 $H_{i,c}(x)$ ，即我们需要使用这个值进行反向传播中梯度的计算： $\frac{\delta H_{i,c}(x,\theta,\phi)}{\delta \phi}=\frac{\delta M(x,\theta)T(x,\phi)}{\delta \phi}$ 这个过程就是对主干网络进行求解的过程，而我们通过公式化简也可以看到， $M(x,\theta)$ 这个时候充当了一个过滤器的作用。

就是把 attention mask 和主干网络的结果相乘之后，再加上主干网络对应的 residual，就是 $1+M_{i,c}(x))*F(x)$ ，这个 $F (x)$ 可以近似于上文中的 $H (x)$ ，这篇文章把这个部分叫做 attention 残差。
$M (x)$ 的范围为 $[0, 1]$ ，当 $M (x)$ 近似于0时， $H (x)$ 将近似于原始特征 $F (x)$
如果 $M (x)$ 足够好，他可以帮助主干网络来抑制训练中的噪声（因为 $M (x)$ 可以看做是一个 filter）
此外，residual attention learning 既能很好地保留原始特征的特性，又能使原始特征具有绕过软掩模分支的能力，从而直接前馈（forward）到最顶层来削弱 mask 分支的特征筛选能力。
堆叠的 attention 模块可以逐步地优化 feature map。
如实验部分所示，残余注意网络深度增加到452并在CIFAR数据集上性能大大超过ResNet-1001

在这里插入图片描述

每个 mask module 都是经历了一个降采样再升采样的过程，这个过程中先通过降采样来获得整个 image 的感受野和全局信息，然后通过升采样将 feature 还原到原始图片大小，并且通过降采样和升采样之间的 skip 跳层来整合不同尺度的特征。

在我们的工作中，mask 分支提供的注意随主干网络特征的变化而变化。但是，在soft mask 输出之前，通过改变激活函数的归一化步骤，仍然可以在掩模分支中增加注意的约束。因此本文提出了三种方式进行最终的归一化步骤，这三种方法分别针对于 mixed attention（混合attention），channel attention（通道间 attention），以及 spatial attention（空间attention）：
- 第一种方法就直接使用 $s i g m o i d$ 作为激活函数来产生 attention
- 第二种方法 $f_2$ 采用 $l 2 - n o r m$ 在所有的 channel 里面来移除空间 spatial 的信息
- 第三种方法 $f_3$ 采用对每个通道的 feature map 进行归一化，然后sigmoid得到只与空间信息相关的软掩模。
- 公式中 $i$ 代表所有空间位置(spatial positions), $c$ 代表了所有的通道， $mean_c, std_c$ 分别代表第 $c$ 个通道的均值和标准差， $x_i$ 代表在第 $i$ 个空间位置的特征向量（feature vector）
实验证明，通过 attention 自发地随着 feature 改变而不进行任何额外的限制往往会得到更好的结果。

关注