【图像去噪】论文精读:Residual Non-local Attention Networks for Image Restoration(RNAN)

请先看【专栏介绍文章】:【图像去噪(Image Denoising)】关于【图像去噪】专栏的相关说明,包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总(更新中)


前言

论文题目:Residual Non-local Attention Networks for Image Restoration —— 用于恢复的剩余非局部注意网络

论文地址:Residual Non-local Attention Networks for Image Restoration

Pytorch代码:https://github.com/yulunzhang/RNAN

ICLR 2019!残差非局部注意力网络RNAN!

Abstract

在本文中,我们提出了一种残差非局部注意网络,用于高质量的图像恢复。在不考虑损坏图像中信息分布不均匀的情况下,以往的方法受到局部卷积运算的限制,对空间和通道特征进行同等处理。为了解决这个问题,我们设计了局部和非局部注意块来提取捕获像素之间的远程依赖关系的特征,并更加关注具有挑战性的部分。具体来说,我们在每个(非)局部注意块中设计主干分支和(非)局部掩码分支。主干分支用于提取分层特征。本地和非本地掩码分支旨在自适应地重新缩放这些具有混合注意力的分层特征。局部掩码分支专注于更多具有卷积操作的局部结构,而非局部注意力更多地考虑了整个特征图中的远程依赖关系。此外,我们提出了残差局部和非局部注意学习来训练非常深的网络,进一步增强了网络的表示能力。我们提出的方法可以推广到各种图像恢复应用,如图像去噪、去马赛克、压缩伪影减少和超分辨率。实验表明,与最近领先的定量和定性方法相比,我们的方法获得了相当或更好的结果。

摘要总览:残差非局部注意网络RNAN,建立空间和通道特征的联系。重点应该看注意力块是如何实现的。

1 INTRODUCTION

图像恢复旨在从损坏的低质量 (LQ) 观察中恢复高质量的 (HQ) 图像,并在各种高级视觉任务中发挥着重要作用。由于图像退化过程的不可逆性质,这是一个典型的不适定问题。一些研究最广泛的图像恢复任务包括图像去噪、去马赛克和压缩伪影减少。通过对LQ观测到HQ目标的恢复过程进行独特的建模,即在建模时假设特定的恢复任务,这些任务可以在同一框架中统一解决。最近,深度卷积神经网络 (CNN) 显示出对各种视觉问题进行建模的非凡能力,从低级(例如图像去噪 (Zhang et al., 2017a)、压缩伪影减少 (Dong et al., 2015) 和图像超分辨率 (Kim et al., 2016; Lai et al., 2017; Tai et al., 2017; Lim et al., 2017; Zhang et al., 2018a; Haris et al., 2018; Wang et al., 2018b; Wang et al., 2018b)))到高级(例如图像识别 (He et al., 2016))视觉应用。

堆叠去噪自动编码器 (Vincent et al., 2008) 是最著名的基于 CNN 的图像恢复模型之一。董等人。提出了用于图像超分辨率的 SRCNN (Dong et al., 2014) 和用于图像压缩伪影减少的 ARCNN (Dong et al., 2015)。SRCNN 和 ARCNN 都比以前的工作取得了更好的性能。通过引入残差学习来缓解更深层次网络的训练难度,Zhang等人提出了DnCNN (Zhang et al., 2017a)进行图像去噪和压缩伪影减少。去噪先验最近在IRCNN (Zhang et al., 2017b)中引入,用于快速图像恢复。毛等人。提出了一种非常深的全卷积编解码框架,具有对称跳跃连接用于图像恢复(Mao et al., 2016)。太等人。后来提出了一种非常深的端到端持久记忆网络(MemNet)用于图像恢复(Tai et al., 2017),并取得了有希望的结果。这些基于 CNN 的方法已经证明了 CNN 在图像恢复任务中的强大能力。

然而,上述现有的基于 CNN 的方法主要存在三个问题。首先,这些网络的感受野大小相对较小。它们中的大多数通过卷积操作以局部方式提取特征,这无法捕获整个图像中像素之间的长期依赖关系。更大的感受野大小允许更好地利用训练输入和更多的上下文信息。这对于捕捉LQ图像的潜在退化模型非常有帮助,特别是当图像遭受严重的损坏时。其次,这些网络的独特能力也受到限制。让我们以图像去噪为例。对于噪声图像,噪声可能出现在普通区域和纹理区域。与普通区域中的噪声去除比在纹理区域更容易。希望使去噪模型更多地关注文本区域。然而,以前的大多数去噪方法都忽略了考虑噪声输入中的不同内容并平等地对待它们。这将导致过度平滑的输出,一些纹理细节也将无法恢复。第三,所有这些通道特征在这些网络中都被平等对待。这种幼稚的处理在处理不同类型的信息(例如低频和高频信息)方面缺乏灵活性。对于一组特征,一些包含更多与 HQ 图像相关的信息,而另一些则可能包含更多与损坏相关的信息。应考虑通道之间的相互依赖关系进行更准确的图像恢复。

为了解决上述问题,我们提出了非常深的残差非局部注意力网络(RNAN)用于高质量的图像恢复。我们将残差局部注意块和非局部注意块设计为非常深的网络的基本构建模块。每个注意块由主干分支和掩码分支组成。我们为主干分支引入残差块(He et al., 2016; Lim et al., 2017)并提取分层特征。对于掩码分支,我们使用大步幅卷积和反卷积进行特征缩减和放大,以扩大感受野大小。此外,我们在掩码分支中合并非局部块以获得剩余的非局部混合注意力。我们将RNAN应用于各种恢复任务,包括图像去噪、去马赛克和压缩伪影减少。大量实验表明,我们提出的 RNAN 在所有任务中与其他最近的领先方法相比取得了最先进的结果。据我们所知,这是第一次考虑剩余非局部注意图像恢复问题。

这项工作的主要贡献有三个方面:

  • 我们提出了非常深的残差非局部网络,用于高质量的图像恢复。强大的网络基于我们提出的残差局部和非局部注意块,由主干分支和掩码分支组成。该网络在掩码分支中获得了非本地混合注意和非本地块。这种注意机制有助于从层次特征中学习局部信息和非局部信息。
  • 我们提出了残差非局部注意学习,通过保留更多的低级特征来训练非常深的网络,更适合图像恢复。使用来自非常深的网络的非局部低级和高级注意力,我们可以追求更好的网络表示能力,最终获得高质量的图像恢复结果。
  • 通过大量的实验证明我们的 RNAN 对各种图像恢复任务都很强。RNAN 在图像去噪、去马赛克、压缩伪影减少和超分辨率方面都取得了优于领先方法的结果。此外,RNAN 在中等模型大小下实现了卓越的性能,并且性能非常快。

工作介绍:RNAN是非常深的网络,主要结构为局部和非局部注意力块。注意力块包括主干和掩码两个分支,学习局部和非局部信息。motivation还是为了增加特征信息。

2 RELATED WORK

非局部先验。作为一种经典的滤波算法,非局部均值(Buade et al., 2005)被计算为图像所有像素的加权平均值。这样的操作允许遥远的像素一次有助于位置的响应。它最近在 BM3D (Dabov et al., 2007b) 中被引入用于图像去噪。最近,Wang等人(2018a)通过在深度神经网络中加入非局部操作进行视频分类,提出了非局部神经网络。我们可以看到这些方法主要在主干管道中引入非本地信息。Liu等人(2018)提出了用于图像恢复的非局部循环网络。然而,在本文中,我们主要关注学习非局部注意力来更好地指导主干分支中的特征提取。

注意力机制。通常,注意力可以被视为将可用处理资源的分配偏向于输入信息量最大的组件的指导(Hu et al.,2017年)。最近,有人提出了将注意力应用于深度神经网络的初步工作(Wang et al., 2017; Hu et al., 2017)。它通常与门控函数(例如 sigmoid)相结合来重新缩放特征图。Wang等人(2017)提出了一种具有主干掩码注意机制的图像分类剩余注意网络。Hu等人(2017)提出了挤压激励(SE)块来建模通道关系,以获得图像分类的显著性能改进。总之,这些工作主要旨在引导网络更加关注感兴趣的区域。然而,很少有人提出研究注意力对图像恢复任务的影响。在这里,我们希望通过噪声和图像内容的不同功率来增强网络。

图像恢复架构。堆叠去噪自动编码器 (Vincent et al., 2008) 是最著名的基于 CNN 的图像恢复方法之一。(Dong et al., 2015) 提出了 ARCNN,用于使用多个堆叠卷积层进行图像压缩伪影减少。在残差学习和批归一化的帮助下(Ioffe & Szegedy, 2015),Zhang等人提出了DnCNN (Zhang et al., 2017a),用于IRCNN中图像恢复的精确图像恢复和去噪先验(Zhang et al., 2017b)。最近,图像恢复社区取得了很大进展,其中 Timofte 等人。 (Timofte et al., 2017)、Ancuti 等人。 (Ancuti et al., 2018) 和 Blau et al. (Blau et al., 2018) 最近领先主要比赛,并取得了新的研究状态和记录。例如,Wang 等人。 (Wang et al., 2018c) 提出了一种完全渐进的图像 SR 方法。然而,大多数方法是普通网络,而忽略了使用非本地信息。

3 RESIDUAL NON-LOCAL ATTENTION NETWORK FOR IMAGE RESTORATION

3.1 FRAMEWORK

我们提出的残差非局部注意网络(RNAN)框架如图1所示。设IL和IH为低质量(如噪声、模糊或压缩图像)和高质量图像。重建图像IR可以通过以下方式获得
I R = H R N A N ( I L ) , (1) I_{R}=H_{R N A N}\left(I_{L}\right),\tag{1} IR=HRNAN(IL),(1)
其中 HRN AN 表示我们提出的 RNAN 的功能。随着全局残差学习在像素空间中的使用,我们网络的主要部分可以专注于学习退化组件(例如,噪声、模糊或压缩伪影)。

第一个和最后一个卷积层分别是浅层特征提取器和重建层。我们提出了残差局部和非局部注意块来提取分层注意感知特征。除了使主网络学习退化组件外,我们还通过使用本地和非本地注意力进一步专注于更具挑战性的领域。我们只在低级特征和高级特征空间中合并剩余的非局部注意块。这主要是因为一些非本地模块可以很好地为网络提供非局部能力进行图像恢复。

然后使用损失函数优化 RNAN。研究了几种损失函数,例如 L2 (Mao et al., 2016; Zhang et al., 2017a; Tai et al., 2017; Zhang et al., 2017b)、L1 (Lim et al., 2017; Zhang et al., 2018c)、感知和对抗性损失 (Ledig et al., 2017)。为了证明我们的 RNAN 的有效性,我们选择优化与以前的工作相同的损失函数(例如 L2 损失函数)。给定一个训练集 {Ii L, Ii H}N i=1,其中包含 N 个低质量输入及其高质量输入。训练RNAN的目标是最小化L2损失函数
L ( Θ ) = 1 N ∑ i = 1 N ∥ H R N A N ( I L i ) − I H i ∥ 2 , (2) L(\Theta)=\frac{1}{N} \sum_{i=1}^{N}\left\|H_{R N A N}\left(I_{L}^{i}\right)-I_{H}^{i}\right\|_{2},\tag{2} L(Θ)=N1i=1N HRNAN(ILi)IHi 2,(2)
其中‖·‖2表示l2范数。如第 4 节所述,我们使用与其他比较方法相同的损失函数。这种选择使看到我们提出的 RNAN 的有效性更加清晰和更公平。然后我们提供有关残差局部和非局部注意块的更多详细信息。

在这里插入图片描述

网络结构:由卷积层、残差非局部注意力块(residual non-local attention block,RNAB)、残差局部注意力块(residual local attention block,RAB),对称结构,第一层卷积浅层提取特征,最后一层卷积重建,中间两个RNAB,三个RAB,总体上残差连接。损失函数为L2损失。

3.2 RESIDUAL NON-LOCAL ATTENTION BLOCK

在这里插入图片描述
我们的残差非局部注意力网络是通过堆叠图 2 所示的几个残差局部和非局部注意块来构建的。每个注意块分为两部分:注意块开始和结束中的 q 个残差块 (RB)。中间的两个分支:主干分支和掩码分支。对于非局部注意块,我们将非局部块 (NLB) 合并到掩码分支中,从而产生非局部注意力。然后我们提供有关这些组件的更多详细信息。

RNAB:头尾各q各残差块(RB,conv+ReLU+conv),中间分为主干分支(Trunk)和掩码分支(Mask),非局部块NLB在掩码分支中。

3.2.1 TRUNK BRANCH

如图 2 所示,主干分支包括 t 个残差块 (RB)。与 ResNet 中的原始残差块不同(He et al., 2016),我们采用 (Lim et al., 2017) 中的简化 RB。简化的 RB(用蓝色虚线标记)仅包含两个卷积层和一个 ReLU(Nair & Hinton,2010),省略了不必要的组件,例如最大池化和批量归一化(Ioffe & Szegedy,2015)层。我们发现这种简化的RB不仅有助于图像超分辨率(Lim et al., 2017),而且有助于为其他图像恢复任务构建非常深的网络。

不同深度的主干分支的特征图作为层次特征。如果不考虑注意力机制,所提出的网络将成为简化的 ResNet。使用掩码分支,我们可以采用通道和空间注意来自适应地缩放层次特征。然后我们提供有关本地和非本地注意力的更多详细信息。

Trunk:t个RB构成,无池化和BN。

3.2.2 MASK BRANCH

如图 2 中的红色虚线所示,我们网络中使用的掩码分支包括本地和非本地分支。在这里,我们主要关注局部掩码分支,通过使用非局部块(NLB,用绿色虚线箭头标记)可以成为非本地分支。

掩码分支的关键是如何掌握更大范围的信息,即更大的感受野大小,从而获得更复杂的注意力图。一种可能的解决方案是多次执行最大池化,如 (Wang et al., 2017) 中使用的图像分类。然而,图像恢复中需要更多的像素级精确结果。Maxpooling 将丢失图像的大部分细节,导致性能不佳。为了缓解这些缺点,我们选择使用大步幅卷积和反卷积来扩大感受野大小。另一种方法是考虑整个输入的非本地信息,这将在下一小节中讨论。

从输入中,大步幅(步幅 ≥ 2)卷积层增加了 mRB 之后的感受野大小。经过额外的2m个RBs后,通过反卷积扩展缩小的特征图层(也称为转置卷积层)。放大后的特征通过m个RBs和一个1 × 1卷积层进一步转发。然后 sigmoid 层对输出值进行归一化,范围为 [0, 1]。虽然掩码分支的感受野大小远大于主干分支的感受野大小,但它不能一次覆盖整个特征。这可以通过使用非局部块 (NLB) 来实现,从而产生非局部混合注意力。

Mask:本文核心。图像恢复任务最主要的就是如何扩大感受野,保留细节信息。通过局部和非局部分支(NLB),经过m个RB后,通过大步长卷积增加感受野(subscale),再经过2m个RB后,通过反卷积(Pytorch中即转置卷积)upscale,经过m个RB、一个1×1Conv、sigmoid归一化。

3.2.3 NON-LOCAL MIXED ATTENTION

在这里插入图片描述
非局部混合注意力块(论文Non-local Neural Networks中的结构),图3为结构。详细实现见本文对应的复现文章。

如上所述,卷积操作一次处理一个局部邻域。为了获得更好的注意力图,这里我们试图一次考虑所有位置。受经典非局部均值方法 (Buade et al., 2005) 和非局部神经网络 (Wang et al., 2018a) 的启发,我们将非局部块 (NLB) 合并到掩码分支中以获得非局部混合注意力(如图 3 所示)。非本地操作可以定义为
y i = ( ∑ ∀ j f ( x i , x j ) g ( x j ) ) / ∑ ∀ j f ( x i , x j ) (3) y_{i}=\left(\sum_{\forall j} f\left(x_{i}, x_{j}\right) g\left(x_{j}\right)\right) / \sum_{\forall j} f\left(x_{i}, x_{j}\right)\tag{3} yi= jf(xi,xj)g(xj) /jf(xi,xj)(3)
其中 i 是输出特征位置索引,j 是枚举所有可能位置的索引。x 和 y 是非局部操作的输入和输出。成对函数f (xi, xj)计算xi和xj之间的关系。函数 g(xj ) 计算位置 j 处输入的表示。

如图3所示,我们使用嵌入式高斯函数来评估成对关系
f ( x i , x j ) = exp ⁡ ( u ( x i ) T v ( x j ) ) = exp ⁡ ( ( W u x i ) T W v x j ) , (4) f\left(x_{i}, x_{j}\right)=\exp \left(u\left(x_{i}\right)^{T} v\left(x_{j}\right)\right)=\exp \left(\left(W_{u} x_{i}\right)^{T} W_{v} x_{j}\right),\tag{4} f(xi,xj)=exp(u(xi)Tv(xj))=exp((Wuxi)TWvxj),(4)
其中 Wu 和 Wv 是权重矩阵。正如 (Wang et al., 2018a) 中所研究的那样,f 有几个版本,例如高斯函数、点积相似度和特征连接。我们还考虑了具有权重矩阵 Wg 的 g: g(xj ) = Wg xj 的线性嵌入。然后非局部块 (NLB) 位置 i 的输出 z 计算为
z i = W z y i + x i = W z softmax ⁡ ( ( W u x i ) T W v x j ) g ( x j ) + x i , (5) z_{i}=W_{z} y_{i}+x_{i}=W_{z} \operatorname{softmax}\left(\left(W_{u} x_{i}\right)^{T} W_{v} x_{j}\right) g\left(x_{j}\right)+x_{i},\tag{5} zi=Wzyi+xi=Wzsoftmax((Wuxi)TWvxj)g(xj)+xi,(5)
其中 Wz 是一个权重矩阵。对于给定的 i,方程式中的 ∑∀j f (xi, xj )/ ∑∀j f (xi, xj )。 3 成为沿维度 j 的 softmax 计算。残差连接允许我们通过将 Wz 初始化为零来将 NLB 插入到预训练网络 (Wang et al., 2018a) 中。

通过非局部和局部注意力计算,掩码分支中的特征图最终由 sigmoid 函数映射
f m i x ( x i , c ) = 1 1 + exp ⁡ ( − x i , c ) , (6) f_{m i x}\left(x_{i, c}\right)=\frac{1}{1+\exp \left(-x_{i, c}\right)},\tag{6} fmix(xi,c)=1+exp(xi,c)1,(6)
其中 i 的范围在空间位置上,c 的范围在特征通道位置上。这种简单的 sigmoid 操作应用于每个通道和空间位置,从而产生混合注意力(Wang et al., 2017)。因此,具有非局部块的掩码分支可以产生非局部混合注意力。然而,来自主干分支和掩码分支的特征之间的简单乘法不够强大或正确,无法形成非常深的可训练网络。我们提出了残差非局部注意学习来解决这些问题。

3.3 RESIDUAL NON-LOCAL ATTENTION LEARNING

如何训练具有非局部混合注意的深度图像恢复网络仍不清楚。这里我们只考虑主干分支和掩码分支,并将它们与它们的残差连接(图 2)。我们专注于从输入特征 x 中获取非局部注意力信息。需要注意的是,Wang et al.(2017)提出了一种注意残差学习形式,其公式为
H R N A ( x ) = H trunk  ( x ) ( H mask  ( x ) + 1 ) . (7) H_{R N A}(x)=H_{\text {trunk }}(x)\left(H_{\text {mask }}(x)+1\right) .\tag{7} HRNA(x)=Htrunk (x)(Hmask (x)+1).(7)
我们发现这种形式的注意力学习不适合图像恢复任务。这主要是因为方程式7 更适合高级视觉任务(例如图像分类),其中低级特征不会保留太多。然而,低级特征对于图像恢复更为重要。因此,我们提出了一种简单而有效的残差注意学习方法,直接引入输入特征x。我们计算其输出 HRN A(x) 为
H R N A ( x ) = H trunk  ( x ) H mask  ( x ) + x (8) H_{R N A}(x)=H_{\text {trunk }}(x) H_{\text {mask }}(x)+x\tag{8} HRNA(x)=Htrunk (x)Hmask (x)+x(8)
其中 Htrunk(x) 和 Hmask(x) 分别表示主干分支和掩码分支的函数。这种残差学习倾向于保留更多的低级特征,并允许我们为具有更强表示能力的高质量图像恢复任务形成非常深的网络。

3.4 IMPLEMENTATION DETAILS

现在,我们指定我们提出的 RNAN 的实现细节。我们使用 10 个残差局部和非局部注意块(2 个非局部注意块)。在每个残差(非)局部块中,我们设置q, t, m = 2,2,1。我们将3×3设置为所有卷积层的大小,除了sigmoid函数之前的非局部块和卷积层的大小,其中内核大小是1×1。RBs中的特征有64个过滤器,除了在非局部块中(见图3),其中C = 32。在每个训练批次中,提取16个大小为48 × 48的低质量(LQ)补丁作为输入。我们的模型由 ADAM 优化器 (Kingma & Ba, 2014) 训练,β1 = 0.9,β2 = 0.999,并且 ε = 10−8。初始学习率设置为 10-4,然后每 2 × 105 次反向传播迭代减少到一半。我们使用 PyTorch (Paszke et al., 2017) 使用 Titan Xp GPU 实现我们的模型。

模型参数:10个RAB,2个RNAB,q, t, m = 2,2,1,sigmoid函数之前的非局部块和卷积层的卷积核大小为1×1,其余均为3×3,特征通道数为64,图3中的C为32。

训练参数:使用ADAM优化器β1 = 0.9,β2 = 0.999,ε = 10−8;lr=1e-4,每 2 × 1 0 5 2×10^5 2×105次迭代后减半。

4 EXPERIMENTS

我们将我们提出的 RNAN 应用于三个经典的图像恢复任务:图像去噪、去马赛克和压缩伪影减少。对于图像去噪和去马赛克,我们遵循与 IRCNN 相同的设置(Zhang et al., 2017b)。对于图像压缩伪影减少,我们遵循与 ARCNN 相同的设置(Dong et al., 2015)。我们在 DIV2K (Timofte et al., 2017; Agustsson & Timofte, 2017) 中使用 800 个训练图像来训练我们的模型。对于每个任务,我们使用常用的数据集进行测试并报告 PSNR 和/或 SSIM (Wang et al., 2004) 来评估每种方法的结果。附录 A 中显示了更多结果。

4.1 ABLATION STUDY

我们在表 1 中展示了消融研究,以研究不同组件对 RNAN 的影响。
在这里插入图片描述

非本地混合注意力。在案例 1 中,所有掩码分支和非本地块都被删除。在情况 4 中,我们启用与案例 1 相同的块数的非局部混合注意力。非局部混合注意力的积极影响可以通过其明显的性能改进来证明。

面具分支。我们还了解到,无论使用非本地块(案例 3 和 4)与否(案例 1 和 2),掩码分支都有助于性能改进。这主要是因为掩码分支为网络提供了信息丰富的注意力,获得了更好的表示能力。

非本地块。非本地块也显然有助于网络能力,无论使用掩码分支(案例 2 和 4)还是不使用(案例 1 和 3)。通过来自低级特征和高级特征的非局部信息,RNAN 表现更好的图像恢复。

块号。在比较案例 2、4 和 7 时,我们了解到更多的非本地块取得了更好的结果。但是,非本地块的引入会消耗大量时间。因此,我们通过考虑低级特征和高级特征来使用 2 个非本地块。当在案例 5 和 7 或案例 6 和 8 中固定 RNAB 数字时,性能也受益于更多的 RAB。

4.2 COLOR AND GRAY IMAGE DENOISING

我们将我们的RNAN与最先进的去噪方法进行比较:BM3D (Dabov等人,2007b)、CBM3D (Dabov等人,2007a)、TNRD (Chen & Pock, 2017)、RED (Mao等人,2016)、DnCNN (Zhang等人,2017a)、MemNet (Tai等人,2017)、IRCNN (Zhang等人,2017b)和FFDNet (Zhang等人,2017c)。Kodak24 (http://r0k.us/graphics/kodak/)、BSD68 (Martin et al., 2001) 和 Urban100 (Huang et al., 2015) 用于颜色和灰度图像去噪。将不同层次的AWGN噪声(如10、30、50和70)添加到干净的图像中。
在这里插入图片描述

定量结果如表2和表3所示。我们可以看到,我们提出的RNAN在所有噪声水平的所有数据集上都取得了最好的结果。我们提出的非局部注意力涵盖了整个图像的信息,这应该对繁重的图像去噪有效。为了证明这种分析,我们以噪声水平 σ = 70 为例。我们可以看到,与第二好的方法FFDNet相比,我们提出的RNAN实现了0.48、0.30和1.06 dB的PSNR增益。这种比较有力地表明了我们提出的非局部混合注意力的有效性。
在这里插入图片描述
在这里插入图片描述

我们还在图 4 和图 5 中展示了视觉结果。通过学习到的非局部混合注意力,RNAN 以不同的方式处理不同的图像部分,明显缓解了过度平滑伪影。

4.3 IMAGE DEMOSAICING

按照IRCNN (Zhang et al., 2017b)中的相同设置,我们将图像demosaicing结果与McMaster (Zhang et al., 2017b)、Kodak24、BSD68和Urban100上的IRCNN的结果进行比较。由于IRCNN一直是图像demosaicing和有限空间的最佳方法之一,我们只在表4中与IRCNN进行比较。正如我们所看到的,马赛克图像的质量非常差,导致PSNR和SSIM值非常低。IRCNN可以增强低质量图像,实现相对较高的PSNR和SSIM值。我们的 RNAN 仍然可以对 IRCNN 进行显着改进。使用本地和非本地注意力,我们的 RNAN 可以更好地处理退化情况。在这里插入图片描述

在这里插入图片描述

视觉结果如图6所示。虽然IRCNN可以极大地去除马赛克效果,但其结果中仍然存在一些伪影(例如,在‘img 026’中阻塞伪影)。然而,RNAN恢复了更忠实的颜色,并抑制了阻塞伪影。

4.4 IMAGE COMPRESSION ARTIFACTS REDUCTION

我们进一步应用我们的 RNAN 来减少图像压缩伪影。我们将我们的RNAN与SA-DCT (Foi et al., 2007)、ARCNN (Dong et al., 2015)、TNRD (Chen & Pock, 2017)和DnCNN (Zhang et al., 2017a)进行比较。我们应用标准的JPEG压缩方案通过以下方式获得压缩图像(Dong et al., 2015)。Matlab JPEG 编码器中使用了四个 JPEG 质量设置 q = 10, 20, 30, 40。在这里,我们只关注 Y 通道的恢复(在 YCbCr 空间中),以保持与其他方法进行公平比较。我们在ARCNN中使用相同的数据集LIVE1(Sheikh等人,2005)和Classic5(Foi等人,2007),并在表5中报告了PSNR/SSIM值。正如我们所看到的,我们的RNAN在所有JPEG质量下在LIVE1和Classic5上实现了最好的PSNR和SSIM值。
在这里插入图片描述
在这里插入图片描述

我们在图 7 中进一步展示了视觉比较。我们在非常低的图像质量 (q=10) 下提供了比较。阻塞伪影可以在一定程度上去除,但ARCNN、TNRD和DnCNN也会过度平滑一些结构。RNAN通过考虑非局部混合注意力获得了更多具有一致结构的细节。

4.5 IMAGE SUPER-RESOLUTION

我们进一步将我们的RNAN与最先进的SR方法进行比较:EDSR (Lim等人,2017)、SRMDNF (Zhang等人,2018a)、D-DBPN (Haris等人,2018)和RCAN (Zhang等人,2018b)。与 (Lim et al., 2017; Zhang et al., 2018c) 类似,我们还引入了自集成策略来进一步提高我们的 RNAN,并将自集成策略表示为 RNAN+。
在这里插入图片描述

如表 6 所示,我们的 RNAN+ 在基准数据集上实现了第二好的性能:Set5 (Bevilacqua et al., 2012)、Set14 (Zeyde et al., 2010)、B100 (Martin et al., 2001)、Urban100 (Huang et al., 2015) 和 Manga109 (Matsui et al., 2017)。即使没有自集成,我们的 RNAN 在大多数情况下也取得了第三个最佳结果。这种改进是显着的,因为 RNAN 的参数数为 7.5 M,远小于 EDSR 中的 43 M,RCAN 中的 16 M。我们的 RNAN(大约 120 个卷积层)的网络深度也比 RCAN 更浅,后者大约有 400 个卷积层。这表明非局部注意力更好地利用主网络,节省了很多网络参数。
在这里插入图片描述

在图 8 中,我们使用几种最先进的方法进行图像 SR (×4)。我们可以看到,我们的 RNAN 在更精细的结构下获得了更好的视觉上令人愉悦的结果。这些比较进一步证明了我们提出的 RNAN 与非局部混合注意力使用的有效性。

4.6 PARAMETERS AND RUNNING TIME ANALYSES

我们还在表7中比较了基于彩色图像去噪的参数、运行时间和性能。PSNR值在Urban100 (σ=50)上进行了测试。具有 10 个块的 RNAN 以最高的参数数实现了最佳性能,可以减少到只有 2 个块并获得第二好的性能。在这里,我们报告了参考的运行时间,因为时间与实现平台和代码有关。在这里插入图片描述

5 CONCLUSIONS

在本文中,我们提出了残差非局部注意网络,用于高质量的图像恢复。网络是通过堆叠本地和非本地注意块来构建的,这些注意块提取本地和非本地注意感知特征,由主干和(非)本地掩码分支组成。它们用于提取分层特征,并使用软权重自适应地重新缩放分层特征。我们通过考虑整个特征图进一步生成非局部注意力。此外,我们提出了残差局部和非局部注意学习来训练非常深的网络。我们将输入特征引入注意力计算,更适合图像恢复。RNAN 以中等模型大小和运行时间实现了最先进的图像恢复结果。

A APPENDIX

A.1 TRAIN RNAN WITH SMALL TRAINING DATA

主要论文中显示的所有结果都基于 DIV2K 训练数据。在这里,我们在 5 个任务的小型训练集上重新训练我们的 RNAN。在表 8 中,对于每个任务,我们只参考我们的主要论文中第二好的方法进行比较。对于训练数据,我们使用 BSD400 (Martin et al., 2001) 进行颜色/灰度图像去噪和去马赛克。我们使用 Yang 等人的 91 张图像。 (2008) 和 Martin 等人的 200 张图像。 (2001)(表示为 SR291)用于图像压缩伪影减少和超分辨率。FFDNet使用BSD400 (Martin et al., 2001),来自ImageNet Deng等人(2009)的400张图像,滑铁卢探索数据库Ma等人(2017)的4,744张图像。这里,“BSD400+”用于表示“BSD400+ImageNet400+WED4744”。如表 8 所示,我们对 RNAN 使用相同甚至更小的训练集,并为 5 个任务获得更好的结果。这些实验证明了我们的RNAN对一般图像恢复任务的有效性。在这里插入图片描述

A.2 VISUAL RESULTS

颜色和灰度图像去噪。我们在图 9 和图 10 中分别展示了颜色和灰度图像去噪比较。我们可以看到我们的 RNAN 恢复了整形器边缘。与大多数其他方法过度平滑一些细节(例如,小线)不同,RNAN 可以减少噪声并保持更多细节。利用学习到的非局部混合注意,RNAN对不同的图像部分进行独特的处理,明显缓解了过平滑伪影。
在这里插入图片描述
在这里插入图片描述

图像压缩伪影减少(CAR)。在图 11 中,我们在非常低的图像质量 (q=10) 下提供了比较。阻塞伪影可以在一定程度上去除,但ARCNN、TNRD和DnCNN也会过度平滑一些结构。相比之下,RNAN 通过考虑非局部混合注意力以更符合结构的细节。在这里插入图片描述

图像超分辨率(SR)。在图 12 中,我们使用几种最先进的方法(例如 SRCNN (Dong et al., 2016)、VDSR (Kim et al., 2016)、LapSRN (Lai et al., 2017)、MemNet (Tai et al., 2017)、EDSR (Lim et al., 2017)、SRMDNF (Zhang et al., 2018a) 和 DDBPN (Haris et al., 2018)。我们可以看到,大多数比较方法都存在失真或输出完全错误的结构。对于微小的线、边缘结构或一些纹理,它们无法恢复和引入模糊伪影。相反,我们的 RNAN 以更精细的结构获得了更好的视觉上令人愉悦的结果。这些比较进一步证明了我们提出的 RNAN 与非局部混合注意力使用的有效性。在这里插入图片描述


回顾一下网络结构:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

然后马不停蹄地来到复现文章吧!看看RNAN的复杂结构具体是如何实现的吧!

本文对应的复现文章:


至此本文结束。

如果本文对你有所帮助,请点赞收藏,创作不易,感谢您的支持!

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十小大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值