[注意力机制]--Non-Local注意力的变体及应用

最新推荐文章于 2024-06-11 22:12:13 发布

chenzy_hust

最新推荐文章于 2024-06-11 22:12:13 发布

阅读量9k

点赞数 10

文章标签：深度学习自动驾驶 pytorch

本文链接：https://blog.csdn.net/weixin_42096202/article/details/103475376

版权

自己整理了一下Non-Local注意力机制提出后，后续该注意力机制的变体和在其他领域的应用！由于自己看论文数量有限，欢迎大家补充说明！

$\color{#FF3030}{一、语义分割：}$

1.CCnet-Criss-Cross Attention for Semantic Segmentation
在这里插入图片描述
原Non-Local block操作的计算复杂度为O(HW * HW)，本文将Non-Local分解为两个Criss-Cross attention block，相当于只在水平和竖直方向的像素点学习权重值，但是其他像素点的权重对特征提取也有作用，所以采用了递归的方式，计算复杂度降为了O(2 * HW * (H+W-1))，大大节省了内存和显存。且效果比Non-local更好。
在这里插入图片描述
实验结果：

2.DAnet：Dual Attention Network for Scene Segmentation
在这里插入图片描述
目前基于深度学习的语义分割网络采用multi scale融合或者U-Net的结构去融合低层和高层的语义特征，但是还是没有综合考虑各个位置的联系和相关性。本文以及Non-local模块提出了双注意力模块，更好的挖掘特征位置和通道重要性。
在这里插入图片描述

实验结果：

3.ANNN-Asymmetric Non-local Neural Networks for Semantic Segmentation

针对non-local模块计算复杂度太高的问题，提出了从Key和Value中采样S个具有表征性的点来减少计算量，如图中时间复杂度从O(N * N)减少到O(N * S)。受到ASPP和PSPnet论文的启发，作者认为可以用金字塔迟化层来提取这些具有表征性的点。
在这里插入图片描述
论文主体结构是ResNet101+FCN+AFNB+APNB，其中AFNB是一个可以将不同层特征进行融合的模块，APNB中可以将N个采样点减少到S个点，在本文中S被设置为1 * 1+3 * 3+6 * 6+8 * 8=110。实验结果也证明了在计算量大大减少的情况，精度并没有损失。
实验结果：
在这里插入图片描述

$\color{#FF3030}{二、目标检测：}$

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
在这里插入图片描述
论文的出发点是发现特征图中不同位置得到的attention maps几乎一致（业界存在质疑），因此觉得Non-Local模块中O(HW*HW)得到的attention maps没有必要，存在着简化的可能性。因此对non-local block优化。

最终优化得到了一个global context (GC) block。结构与SEnet的通道注意力机制很相似，但是多了context model，即全局建模的模块。该模块是嵌入在检测网络的backbone特征提取网络中，实验结果也证明了这个模块的有效性。
在这里插入图片描述

$\color{#FF3030}{三、图像超分：}$

Second-order Attention Network for Single Image Super-Resolution
在这里插入图片描述
此论文是沿着RCAN论文进行的改进，RCAN论文中最大的创新点就是在图像超分任务中引入了通道注意力机制，本论文创新点之一是将RCAN中基于一阶的通道注意力机制换成了基于二阶统计的注意力机制，此外是第一次将non-local注意力机制引入到图像超分任务中，在深层特征提取的一头一尾加上了最原始的non-local模块，当然介于non-local模块的计算量太大的问题，本文采用了分块non-local 的做法。实验效果方面，个人觉得提升不大，主要是在刷non-local的注意力机制。
在这里插入图片描述

$\color{#FF3030}{四、图像去雨：}$

Non-locally Enhanced Encoder-Decoder Network for Single Image Deraining
在这里插入图片描述
去雨和去噪一个很大的不同就是雨的规律性不强，不像去噪那样先拟合出来噪声再去除，而且雨条一般会很长，可能会覆盖整张图片，所以对图像的全局处理更需要，在传统去雨的网络都是通过pooling-UNpooling来增加感受野的问题，本文在此基础上增加了Non-Local Block，充分利用图像的非局部自相似性，在网络结构上采用的是Encorder-Decorder的结构。
在这里插入图片描述
带有雨图像输入到两个卷积层中用于特征提取，而后输入三个和maxpooling相连接的NEDB密集块，接着对称的输入NEDB并进行uppooling恢复到原始图像大小，再经过两个conv进行图像恢复，整个网络是一个对称的结构，用skip一一连接，形成Encorder-Decorder的结构。而每个NEDB的结构如上。实验结果如下，个人觉得unet结构+引入non-local创新点很足，效果也很好。
在这里插入图片描述

$\color{#FF3030}{五、文本识别：}$

MASTER: Multi-Aspect Non-local Network for Scene Text Recognition
在这里插入图片描述
本文最大创新点在文本识别中第一次引入全局注意力机制，提出的模块主要来自于gcnet中的gc block，本文对该模块进行了修改，该文将其用于场景文本识别的注意力建模，发现如果使用多个注意力函数，可以取得更好的结果，因此提出了Multi-Aspect 全局上下文建模方法，实验结果如下，可以发现在多个文本识别数据集下，都取得SOTA的效果。
在这里插入图片描述

chenzy_hust

关注

10
点赞
踩
83

收藏

觉得还不错? 一键收藏
4
评论
[注意力机制]--Non-Local注意力的变体及应用

自己整理了一下Non-Local注意力机制提出后，后续该注意力机制的变体和在其他领域的应用！由于自己看论文数量有限，欢迎大家补充说明！一、语义分割：\color{#FF3030}{一、语义分割：}一、语义分割：1.CCnet-Criss-Cross Attention for Semantic Segmentation原Non-Local block操作的计算复杂度为O(HWHW)，...
复制链接

扫一扫