应该是投向ECCV2020的文章,Non-local与多尺度特征结合的第二篇(第一篇见https://blog.csdn.net/weixin_42096202/article/details/106222582),不过本质上是不一样。第一篇论文是在不同尺度特征上分别应用Non-Local然后进行融合,比较机械化。这篇论文是在多个尺度特征上应用一个Non-Local,即挖掘索引像素点与对应多尺度特征的响应,突破了自注意力只能捕获单一尺度的特征依赖缺陷
论文地址:https://arxiv.org/pdf/2004.13824.pdf
Github:https://github.com/SHI-Labs/Pyramid-Attention-Networks
Abstract:
自相似性是指在图像复原算法中广泛使用的图像先验,在不同的位置和尺度上往往会出现小的但相似的图案。但是,最近的基于深度卷积神经网络的先进图像复原方法依靠仅处理相同尺度信息的自注意神经模块无法充分利用自相似性。为了解决这个问题,我们提出了一种新颖的金字塔注意力模块用于图像复原,该模块从多尺度特征金字塔中捕获远j距离特征对应关系。受到诸如噪声或压缩伪影之类的损坏在较粗糙的图像尺度下急剧下降这一事实的启发,我们的注意力模块被设计为能够从较粗的级别的“干净”对应中借用干净的信号。一个通用的构建块,可以灵活地集成到各种神经体系结构中。通过对多种图像恢复任务的广泛实验来验证其有效性:图像去噪,去马赛克,压缩伪像减少和超分辨率。我们的PANet(金字塔形)具有简单网络骨干的注意力关注模块)可以产生具有卓越准确性和视觉质量的最新结果。
Introduction:
当前的自注意力机制存在以下问题:
1.如Non-Local模块等都是集中在单一尺度特征提取全局先验。因此未能捕获发生在不同尺度上的有用的特征依赖关系。
2.在自注意力模块中使用的逐像素匹配通常对低级视觉任务很嘈杂,从而降低了性能。 从直觉上讲,扩大搜索空间会增加寻找更好匹配的可能性,但对于现有的自注意模块而言并非如此。 与采用大量降维操作的高级特征图不同,图像复原网络通常会保持输入的空间大小。 因此,特征仅与局部区域高度相关,因此容易受到噪声信号的影响。 这与传统的非局部滤波方法相一致,在传统的非局部滤波方法中,逐像素匹配的效果比块匹配要差得多。
因此本文提出的自注意力机制充分利用了传统的Non-Local操作的优势,但旨在更好地符合图像复原的性质。 特别是,原始搜索空间在很大程度上从单个要素图扩展到了多尺度要素金字塔。
Methods:
1.Scale Agnostic Attention && Pyramid Attention
如上图所示:
1.图(a)为Non-Local注意力,在单一尺度上捕获像素的全局响应;
2.图(b)为Scale agnostic注意力,可以捕获两个尺度上的全局像素响应;
3.图(c))Pyramid注意力,捕获多个尺度上的全局响应。
具体实现方式:Pyramid Attention是先提取得到多个尺度特征,然后按照bottom-up的方式逐次对相邻两个尺度特征应用Scale Agnostic Attention实现。其中,Scale Agnostic Attention是以分块匹配的自注意力操作代替Non-Local中的逐像素匹配操作。
接下来从代码的角度看一下Pyramid Attention的实现方式:
1.使用双三次插值方式构建5个尺度的特征金字塔
2.分别对每个尺度特征提取两次图像块,分别用于重建f与转换的g(用于图像块匹配),分别对应raw_w与w
3.对在不同尺度提取到的块特征w,进行拼接作为核函数权重与输入xi进行卷积匹配,并应用Softmax函数得到自相似性特征图
4.对在不同尺度提取到的块特征raw_w进行拼接作为转置卷积核权重,与自相似性特征图进行反卷积得到输入特征
class PyramidAttention(nn.Module):
def __init__(self, level=5, res_scale=1, channel=64, reduction=2, ksize=3, stride=1, softmax_scale=10, average=True, conv=common.default_conv):
super(PyramidAttention, self).__init__()
self.ksize = ksize
self.stride = stride
self.res_scale = res_scale
self.softmax_scale = softmax_scale
self.scale = [1-i/10 for i in range(level)]
self