几篇不错的注意力机制文献

最新推荐文章于 2024-08-02 06:51:03 发布

TTdreamloong

最新推荐文章于 2024-08-02 06:51:03 发布

阅读量7.8k

点赞数 5

本文链接：https://blog.csdn.net/TTdreamloong/article/details/83450046

版权

注意力机制

几篇不错的注意力文献

在计算机视觉领域，注意力机制有各种不同形式的实现，可以大致分为soft attention和hard attention[1]。Soft attention的典型例子是stn[3]，Residual Attention Network[5]和Two-level Attention[2]，这种注意力机制是可微的，可以通过反向传播训练。而Hard attention 需要预测关注的区域，通常使用强化学习来训练，例子见[1]中列举的参考文献。
[2]中集成了三种类型的attention: 提供候选patch的bottom-up, 依据object筛选相关patch的object-level top-down和定位区分性部件的part-level top-down。
[5]这篇文章写得很不错，值得细读。提出了一种Residual attention network，是attention module的堆叠。在每个module中均使用bottom-up top-down结构（参考Stacked hourglass networks[7]）。The bottom-up top-down structure mimics the fast feedforward and feedback attention process。利用残差机制使得网络深度可以进一步扩展。网络结构如下图：
[6]提出了SENet，这个模型获得了ImageNet 2017竞赛 Image Classification任务的冠军。可以看做是channel维度的attention (gating)，参见作者本人的分享：CVPR | ImageNet冠军模型SE-Net详解！
SE block如下图：
[4]提出了一种Deep Attention Selective Network (dasNet)。在训练完成后，通过强化学习（Separable Natural Evolution Strategies）来动态改变attention。具体来说，attention调整的是每个conv filter的权重（和SENet一样有木有，都是channel维度）。policy是一个neural network，RL部分的算法如下：

Alt text

其中每次while循环代表一次SNES迭代，M表示训练好的CNN，u和Sigma是policy参数对应的分布超参，p是采样p个policy参数，n是随机抽取n张图片。具体看文章，算法解释的很清楚。
最后人体姿态估计[8]等领域也有一些很有趣的文章，后面有必要再细看。值得一提的是，本文介绍的大多数attention (gating) 技巧都可以直接加入现有的网络架构，通过合理设计初始化和训练步骤也可以利用现有网络的预训练参数。这大大扩展了这些技巧的适用范围。

Zhao B, Wu X, Feng J, et al. Diversified visual attention networks
for fine-grained object classification[J]. arXiv preprint
arXiv:1606.08572, 2016.
Xiao T, Xu Y, Yang K, et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 842-850.
Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025.
Stollenga M F, Masci J, Gomez F, et al. Deep networks with internal selective attention through feedback connections[C]//Advances in Neural Information Processing Systems. 2014: 3545-3553.
Wang F, Jiang M, Qian C, et al. Residual Attention Network for Image Classification[J]. arXiv preprint arXiv:1704.06904, 2017.
Hu J, Shen L, Sun G. Squeeze-and-Excitation Networks[J]. arXiv preprint arXiv:1709.01507, 2017.
Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 483-499.
Chu X, Yang W, Ouyang W, et al. Multi-context attention for human pose estimation[J]. arXiv preprint arXiv:1702.07432, 2017.

作者：Wayne2019
来源：CSDN
原文：https://blog.csdn.net/Wayne2019/article/details/78488142?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

Attention机制的理解

学习权重分布：输入数据或特征图上的不同部分对应的专注度不同

这个加权可以是保留所有分量均做加权（即soft attention）；也可以是在分布中以某种采样策略选取部分分量（即hard attention），此时常用RL来做。
这个加权可以作用在原图上，也就是《Recurrent Model of Visual Attention》（RAM）和《Multiple Object Recognition with Visual Attention》（DRAM）；也可以作用在特征图上，如后续的好多文章（例如image caption中的《 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》)。
这个加权可以作用在空间尺度上，给不同空间区域加权；也可以作用在channel尺度上，给不同通道特征加权；甚至特征图上每个元素加权。
这个加权还可以作用在不同时刻历史特征上，如Machine Translation。

任务聚焦：通过将任务分解，设计不同的网络结构（或分支）专注于不同的子任务，重新分配网络的学习能力，从而降低原始任务的难度，使网络更加容易训练。

Attention机制应用相关文献

方式一：学习权重分布

（精细分类）Jianlong Fu, Heliang Zheng, Tao Mei (Microsoft Research), Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition, CVPR2017
在关注的每一个目标尺度上，都采用一个分类的网络和一个产生attention proposal 的网络(APN)。本文最有趣的就是这个APN。这个APN由两个全连接层构成，输出3个参数表示方框的位置，接下来的尺度的分类网络只在这个新产生的方框图像中提特征进行分类。怎么训练呢？本文定义了一个叫做rank Loss，用这个loss来训练APN，并强迫finer的尺度得到的分类结果要比上一个尺度的好，从而使APN更提取出更有利于精细分类的目标局部出来。通过交替迭代训练，APN将越来越聚焦目标上的细微的有区分性的部分。当然这里有一个问题，那就是精细尺度只能聚焦到最显著的部位（如鸟头），但其他部分（如羽毛、鸟爪）就关注不到了。
（图像分类）Fei Wang, etc. (SenseTime Group Limited). Residual Attention Network for Image Classification，CVPR2017
本文是在分类网络中，增加了Attention module。这个模块是由两支组成，一支是传统的卷积操作，另一支是两个下采样加两个上采样的操作，目的是获取更大的感受野，充当attention map。因为是分类问题，所以高层信息更加重要，这里通过attention map提高底层特征的感受野，突出对分类更有利的特征。相当于变相地增大的网络的深度。

Alt text
3. （图像分割）Liang-Chieh Chen，etc. (UCLA) Attention to Scale: Scale-aware Semantic Image Segmentation, CVPPR2016（权重可视化效果有点意思）
通过对输入图片的尺度进行放缩，构造多尺度。传统的方法是使用average-pooling或max-pooling对不同尺度的特征进行融合，而本文通过构造Attention model（由两个卷积层构成）从而自动地去学不同尺度的权重，进行融合（效果提升1到2个点吧，不同的数据集不一样）。从论文中的权重可视化的结果，能发现大尺寸输入上，对应网络关注于small-scale objects，而在稍微小一点的尺寸输入上，网络就关注于middle-scale，小尺寸输入则关注background contextual information。可视化效果感觉非常有意思。
Alt text
4. （Image Caption看图说话）Kelvin Xu，etc. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention，ICML2015
大意是对一个图像进行描述时，生成不同的单词时，其重点关注的图像位置是不同的，可视化效果不错。

方式二：任务聚焦/解耦

（Instance Segmentation）Kaiming He, etc. Mask R-CNN
Kaiming大神在Mask R-CNN中，将segment branch的损失函数由softmax loss换成了binary sigmoid loss。即是，将分类和分割任务进行解耦，当box branch已经分好类时，segment branch 就不用再关注类别，只需要关注分割，从而使网络更加容易训练。具体到训练中，假设分狗、猫、马三类，segment branch会得到3个mask，当训练样本是狗类，那么这个类别的loss才会被反传，猫类和马类对应的mask都不用管。也就是说，生成狗mask的那部分网络连接（卷积核）只需要聚焦于狗类的样本，然后将属于狗的像素目标凸显出来出来，训练其他类别时不会对这些连接权重进行更新。通过这个任务解耦，分割的结果得到了很大的提升（5%-7%）。Kaiming大神在文中也指出，当只输出一个mask时，分割结果只是略差，从而进一步说明了将分类和分割解耦的作用
（图像分割）Lin etc. Fully Convolutional Network with Task Partitioning for Inshore Ship Detection in Optical Remote Sensing Images
针对靠岸舰船，本文通过任务解耦的方法来处理。因为高层特征表达能力强，分类更准，但定位不准；底层低位准，但分类不准。为了应对这一问题，本文利用一个深层网络得到一个粗糙的分割结果图（船头/船尾、船身、海洋和陆地分别是一类）即Attention Map；利用一个浅层网络得到船头/船尾预测图，位置比较准，但是有很多虚景。训练中，使用Attention Map对浅层网络的loss进行引导，只反传在粗的船头/船尾位置上的loss，其他地方的loss不反传。相当于，深层的网络能得到一个船头/船尾的大概位置，然后浅层网络只需要关注这些大概位置，然后预测出精细的位置，图像中的其他部分（如船身、海洋和陆地）都不关注，从而降低了学习的难度。

Alt text