Residual Attention Network for Image Classification论文解读_multiscale attention guided network-based dbt imag-CSDN博客

本文链接：https://blog.csdn.net/qq_34914551/article/details/88370145

这篇论文提出一种Attention Module结构，通过堆叠这种结构实现更好的分类效果。其主要贡献有如下三点：

堆叠网络结构：整个网络是基于相同的attention module 堆叠构建的，运用了混合注意力机制（后面会讲解什么是混合注意力）。每个模块有不同的注意力类型。
引入了残差注意力学习：如果直接堆叠注意力模块会导致明显的性能下降。引入残差学习既能解决这个问题，也能保证网络的深度。
使用编码解码结构产生注意力mask，使用mask作为特征的软加权。其目的是指引学习更加值得注意的特征（判断度更加高）

不同阶段有不同的关注点

在这里插入图片描述
左边的图示意注意力机制的工作方法，有两条分支，主分支依旧提取特征，旁分支学习一种注意力掩码，告诉网络哪里是值得注意的地方。天空和背景是黑色的，热气球被突出。
右边的图说明不同特征对应的注意力区域也不一样。天空掩码会减少低级的颜色特征的区域。到了高级特征，掩码聚焦在物体上或者物体的一部分上。
另外要知道的是，注意力掩码随着主干路特征不同自动的变化。就是说输入什么样的图，mask就会自动变化成相应的注意力区域。

Attention Module

这个模块有两个分支，一个称trunk branch，另一个是mask branch。trunk branch是用来提取特征的，可以使用当前流行的结构；mask branch是一个编码解码结构，输出是一个和输入同尺寸的特征图。记输入为x，trunk branch的输出为F(x)，mask branch的输出为M(x)，那么模块输出为
$H_{i,c}(x) = (1 + M_{i,c}(x))*F_{i,c}(x)$
先解释一下符号。i就是特征图的空间位置的坐标，c是通道维度上的index。公式的意思很明显了，就是将mask和提取的特征做对应元素相乘，在加上提取的特征。这就是attention residual learning。

attention residual learning中residual的含义

H的公式其实是论文一大亮点。一般来说，我们提取的特征，直接和得到的mask做对应元素相乘就可以了，为什么还要加上一个特征呢？即模块为何不是如下的输出：
$H_{i,c}(x) = M_{i,c}*F_{i,c}$
论文解释了这样做是不可以的。
首先作者做了实验，上面的做法会导致性能的大幅下降。
然后作者指出：