[注意力机制]--Non-Local注意力的变体及应用

自己整理了一下Non-Local注意力机制提出后,后续该注意力机制的变体和在其他领域的应用!由于自己看论文数量有限,欢迎大家补充说明!

一 、 语 义 分 割 : \color{#FF3030}{一、语义分割:}

1.CCnet-Criss-Cross Attention for Semantic Segmentation
在这里插入图片描述
原Non-Local block操作的计算复杂度为O(HW * HW),本文将Non-Local分解为两个Criss-Cross attention block,相当于只在水平和竖直方向的像素点学习权重值,但是其他像素点的权重对特征提取也有作用,所以采用了递归的方式,计算复杂度降为了O(2 * HW * (H+W-1)),大大节省了内存和显存。且效果比Non-local更好。
在这里插入图片描述
实验结果:
在这里插入图片描述

2.DAnet:Dual Attention Network for Scene Segmentation
在这里插入图片描述
目前基于深度学习的语义分割网络采用multi scale融合或者U-Net的结构去融合低层和高层的语义特征,但是还是没有综合考虑各个位置的联系和相关性。本文以及Non-local模块提出了双注意力模块,更好的挖掘特征位置和通道重要性。
在这里插入图片描述
在这里插入图片描述
实验结果:
在这里插入图片描述
3.ANNN-Asymmetric Non-local Neural Networks for Semantic Segmentation
在这里插入图片描述
针对non-local模块计算复杂度太高的问题,提出了从Key和Value中采样S个具有表征性的点来减少计算量,如图中时间复杂度从O(N * N)减少到O(N * S)。受到ASPP和PSPnet论文的启发,作者认为可以用金字塔迟化层来提取这些具有表征性的点。
在这里插入图片描述
论文主体结构是ResNet101+FCN+AFNB+APNB,其中AFNB是一个可以将不同层特征进行融合的模块,APNB中可以将N个采样点减少到S个点,在本文中S被设置为1 * 1+3 * 3+6 * 6+8 * 8=110。实验结果也证明了在计算量大大减少的情况,精度并没有损失。
实验结果:
在这里插入图片描述

二 、 目 标 检 测 : \color{#FF3030}{二、目标检测:}

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
在这里插入图片描述
论文的出发点是发现特征图中不同位置得到的attention maps几乎一致 (业界存在质疑),因此觉得Non-Local模块中O(HW*HW)得到的attention maps没有必要,存在着简化的可能性。因此对non-local block优化。
在这里插入图片描述
最终优化得到了一个global context (GC) block。结构与SEnet的通道注意力机制很相似,但是多了context model,即全局建模的模块。该模块是嵌入在检测网络的backbone特征提取网络中,实验结果也证明了这个模块的有效性。
在这里插入图片描述

三 、 图 像 超 分 : \color{#FF3030}{三、图像超分:}

Second-order Attention Network for Single Image Super-Resolution
在这里插入图片描述
此论文是沿着RCAN论文进行的改进,RCAN论文中最大的创新点就是在图像超分任务中引入了通道注意力机制,本论文创新点之一是将RCAN中基于一阶的通道注意力机制换成了基于二阶统计的注意力机制,此外是第一次将non-local注意力机制引入到图像超分任务中,在深层特征提取的一头一尾加上了最原始的non-local模块,当然介于non-local模块的计算量太大的问题,本文采用了分块non-local 的做法。实验效果方面,个人觉得提升不大,主要是在刷non-local的注意力机制。
在这里插入图片描述

四 、 图 像 去 雨 : \color{#FF3030}{四、图像去雨:}

Non-locally Enhanced Encoder-Decoder Network for Single Image Deraining
在这里插入图片描述
去雨和去噪一个很大的不同就是雨的规律性不强,不像去噪那样先拟合出来噪声再去除,而且雨条一般会很长,可能会覆盖整张图片,所以对图像的全局处理更需要,在传统去雨的网络都是通过pooling-UNpooling来增加感受野的问题,本文在此基础上增加了Non-Local Block,充分利用图像的非局部自相似性,在网络结构上采用的是Encorder-Decorder的结构。
在这里插入图片描述
带有雨图像输入到两个卷积层中用于特征提取,而后输入三个和maxpooling相连接的NEDB密集块,接着对称的输入NEDB并进行uppooling恢复到原始图像大小,再经过两个conv进行图像恢复,整个网络是一个对称的结构,用skip一一连接,形成Encorder-Decorder的结构。而每个NEDB的结构如上。实验结果如下,个人觉得unet结构+引入non-local创新点很足,效果也很好。
在这里插入图片描述

五 、 文 本 识 别 : \color{#FF3030}{五、文本识别:}

MASTER: Multi-Aspect Non-local Network for Scene Text Recognition
在这里插入图片描述
本文最大创新点在文本识别中第一次引入全局注意力机制,提出的模块主要来自于gcnet中的gc block,本文对该模块进行了修改,该文将其用于场景文本识别的注意力建模,发现如果使用多个注意力函数,可以取得更好的结果,因此提出了Multi-Aspect 全局上下文建模方法,实验结果如下,可以发现在多个文本识别数据集下,都取得SOTA的效果。
在这里插入图片描述

  • 10
    点赞
  • 83
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值