【图像超分辨率】(SPSR)Structure-Preserving SR with Gradient Guidance

摘要

在单一图像超级分辨率(SISR)中,结构很重要,本文提出了一种保护结构的超分辨率的方法,同时保持基于GAN的方法的优点,以产生感观上令人愉快的细节。具体来说,本文利用图像的梯度图,从两个方面指导恢复工作。一方面,通过一个梯度分支来恢复高分辨率的梯度图,为SR过程提供额外的结构参数。另一方面,提出了一种梯度损失,对超分辨率图像施加了二阶限制。与之前的图像空间损失函数一样,梯度空间目标有助于生成网络更加集中在几何结构上。实验结果表明,与最先进的感知驱动的SR方法相比,取得了最佳的PI和LPIPS性能,同时,PSNR和SSIM也相当不错。视觉结果表明在恢复结构的同时生成自然的SR图像方面具有优势。

1. 引言

虽然基于GAN的方法可以产生高保真的SR结果,但总是有几何失真,以及尖锐的边缘和精细的纹理。RCAN[51]为砖块恢复了模糊但笔直的边缘,而由感知驱动的方法恢复的边缘更清晰但扭曲。本文提出了一种保留结构的超分辨率方法来缓解上述问题。

梯度图揭示了图像中每个局部区域的清晰度,可以利用这一强大的工具来指导图像恢复。

一方面,本文设计了一个梯度分支,将LR图像的梯度图转换为HR的梯度图,作为一个辅助的SR问题。恢复的梯度可以被整合到SR分支中,为SR提供结构先验。此外,梯度可以强调应该更加关注锐度和结构的区域,从而明确地指导高质量的生成。这个想法的动机是,一旦边缘被高保真地恢复,SR任务就可以被视为一个颜色填充问题,由LR图像提供强有力的线索。

另一方面,本文提出了一个梯度损失来明确地监督恢复图像的梯度图。与现有方法中的图像空间损失函数一起,梯度损失限制了相邻像素的二阶关系。因此,在这种指导下,结构配置可以得到更好的保留,并且可以得到具有高感知质量和较少几何变形的SR结果。

此外,本文的方法与模型无关,有可能用于现成的SR网络。

2. 相关工作

SISR方法可以分为两类。面向PSNR的方法和感知驱动的方法。以PSNR为导向的方法,侧重于实现高PSNR,因此使用MSE损失或L1损失作为损失函数。然而,这些方法通常会产生模糊的图像。感知损失的方法可以提高恢复图像的视觉质量。尽管感知驱动方法确实提高了超分辨率图像的整体视觉质量,但在恢复细节时,它们有时会产生不自然的伪影,包括几何变形。

Zhu等人[53](Modeling deformable gradient compositions for single-image super-resolution. CVPR 2015.)提出了一种基于梯度的SR方法,通过收集梯度模式的字典并对可变形的梯度组合进行建模。Yang等人[48](Deep edge guided recurrent residual learning for image super-resolution.TIP 2017)提出了一个递归残差网络,在由现成的边缘检测器提取的边缘引导下重建细部。虽然边缘重建和梯度场约束在一些方法中得到了利用,但它们的目的主要是为PSNR导向的SR方法恢复高频成分。与这些方法不同,本文的目的是减少基于GAN的方法产生的几何失真,并利用梯度图作为SR的结构指导。对于深度对抗网络,梯度空间约束可以为更好的图像重建提供额外的监督。

3. 方法

本节中首先介绍整体框架。然后,我们将相应地介绍梯度分支、周到的赋值模块和最终目标函数的细节。
在这里插入图片描述
图2. 我们的SPSR方法的总体框架。我们的架构由两个分支组成,即SR分支和梯度分支。梯度分支旨在将LR梯度图超分辨率为HR对应的梯度图。它结合了来自SR分支的多级表征,以减少参数,并输出梯度信息,依次指导融合块的SR过程。最终的SR输出不仅通过传统的图像空间损失进行优化,而且还通过提议的梯度空间目标进行优化。

3.1. 概述

在SISR中,我们的目标是将LR图像I LR作为输入,并生成SR图像I SR,给定其HR对应的I HR作为ground-truth。我们把生成器表示为G,把它的参数表示为θG,然后我们有I SR = G(I LR; θG)。I SR应该尽可能地与I HR相似。如果通过损失函数L来优化参数,我们有以下公式:θ ∗ G = arg min θG EISR L(G(I LR; θG), IHR)。(1)

整体框架如图2所示。生成器由两个分支组成,其中一个是结构保全的SR分支,另一个是梯度分支。SR分支将I LR作为输入,旨在通过梯度分支的SR梯度图提供的指导,重新覆盖SR输出I SR。

3.2.架构细节

3.2.1 梯度分支

梯度分支的目标是估计梯度图从LR模式到HR模式的转换。一个图像I的梯度图是通过计算相邻像素之间的差值得到的。
在这里插入图片描述
其中M(-)代表提取梯度图的操作,其元素为共点x = (x, y) 的像素梯度长度。

获取梯度的操作可以通过一个固定核的卷积层轻松实现。事实上,在形成过程中不考虑梯度方向,因为梯度强度足以揭示恢复图像中局部区域的清晰度。因此,采用强度图作为梯度图。这种梯度图可以被看作是另一种图像,因此可以利用图像到图像的转换技术来学习两种模式之间的映射。转换过程相当于从LR边缘锐度到HR边缘锐度的空间分布转换。由于梯度图的大部分区域接近于零,卷积神经网络可以更加集中于轮廓的空间关系。因此,该网络可能更容易捕捉到结构的依赖性,从而为SR图像产生近似的梯度图。

如图2所示,梯度分支包含了来自SR分支的几个中间层次的表示。这种方案的动机是,设计良好的SR分支能够携带丰富的结构形成,这对梯度图的恢复至关重要。因此,我们利用这些特征作为强大的先验来促进梯度分支的性能,在这种情况下,其参数可以大大减少。在每两个中间特征之间,有一个梯度块,它可以是任何基本块,以提取更高级别的特征。

一旦我们通过梯度分支得到了SR梯度图,我们就可以将得到的梯度特征整合到SR分支中,依次指导SR重建。梯度图的大小可以隐含地反映一个恢复的区域应该是尖锐的还是平滑的。在实践中,我们将梯度分支的倒数第二层所产生的特征图送入SR分支。同时,我们以这些特征图为输入,通过1×1的卷积层生成输出的梯度图。

3.2.2 保留结构的SR分支

我们设计了一个保留结构的SR分支来获得最终的SR输出。这个分支由两部分组成。第一部分是一个常规的SR网络,由多个生成性神经块组成,可以是任何结构。这里我们介绍ESRGAN[42]中提出的Residual in Residual Dense Block(RRDB)。原始模型中有23个RRDB块。因此,我们将第5、10、15、20个块的特征图纳入到梯度分支。由于常规的SR模型产生的图像只有3个通道,我们去掉了最后一个卷积重构层,并将输出的特征输入到结果部分。SR分支的第二部分连接上文提到的从梯度分支得到的SR梯度特征图。我们通过一个融合块来融合结构信息,将两个分支的特征融合到一起。具体来说,我们将这两个特征连接起来,然后使用另一个RRDB块和卷积层来重建最终的SR特征。值得注意的是,我们只在SR分支中增加了一个RRDB块。因此,与具有23个块的原始模型相比,参数的增量很小。

3.3 Object function

传统的损失:

大多数SR方法通过普通的像素损失来优化精心设计的网络,这对于用PSNR衡量的超分辨率任务来说是有效的。这个指标可以减少恢复的图像和地面实况之间的平均像素差异,但结果可能过于平滑,无法保持视觉效果的锐利边缘。然而,这种损失仍然被广泛用于加速收敛和提高SR性能。

在这里插入图片描述

感知损失

在[20]中被提出,以提高恢复图像的感知质量。包含语义信息的特征由预先训练好的VGG网络工作来提取[36]。在感知损失中,HR图像的特征和SR图像的特征之间的欧几里得距离最小。
在这里插入图片描述
其中φi(.)表示VGG模型的第i层输出。基于生成对抗网(GANs)[3, 4, 15, 16, 21, 33]的方法[27, 42]在SR问题上也发挥了重要作用。鉴别器DI和生成器G由一个双人游戏优化如下。

在这里插入图片描述
按照[21, 42],我们进行相对论平均GAN(RaGAN),以在实践中实现更好的优化。由上述目标函数监督的模式仅仅考虑了图像空间的约束,但忽略了由梯度空间提供的语义结构信息。虽然生成的结果看起来很逼真,但也有一些不希望出现的几何变形。因此,我们引入梯度损失来缓解这个问题。

梯度损失

我们的动机可以通过图3清楚地说明。这里我们只考虑一个简单的一维情况。如果模型只是通过L1损失在图像空间中进行优化,那么在给定一个输入测试序列的情况下,我们通常会得到一个SR序列,如图3(b),其基础事实是一个尖锐的边缘,如图3(a)。该模型不能恢复尖锐的边缘,原因是该模型倾向于从训练数据中给出可能的HR解决方案的统计平均值。在这种情况下,如果我们计算并显示两个序列的梯度大小,可以看到SR梯度是平的,数值很低,而HR梯度是一个尖峰,数值很高。它们彼此相距甚远。这启发我们,如果我们在优化目标中加入二阶梯度约束,模型可能会从梯度空间中学习更多。它有助于模型关注相邻的配置,从而可以更恰当地推断出局部的锐度强度。因此,如果捕捉到图3(f)那样的梯度信息,恢复图3(c)的概率会大大增加。SR方法可以从这种指导中受益,避免过度光滑或过度锐化的恢复。此外,在梯度空间中更容易提取几何特征。因此,几何结构也可以得到很好的保留,从而得到更逼真的SR图像。这里我们提出了一种梯度损失来实现上述目标。由于我们已经提到梯度图是反映图像结构信息的理想工具,它也可以被用作二阶约束来为生成器提供超维。我们通过消除从SR图像中提取的梯度图与从相应的HR图像中提取的梯度图之间的距离来制定梯度损失。有了图像和梯度的监督,生成器不仅可以学习精细的外观,还可以重视避免详细的几何偏差。因此,我们设计了两个损失项来惩罚SR和HR图像的梯度图(GM)的差异。一个是基于像素的损失,如下所示。

在这里插入图片描述

另一个是分辨一个梯度斑块是否来自HR梯度图。我们设计另一个梯度判别网络来实现这一目标:
在这里插入图片描述

梯度判别器还可以通过对抗性学习监督SR结果的生成。

在这里插入图片描述
请注意,操作M(-)中的每一步都是不同的。因此,带有梯度损失的模型可以以端到端的方式进行训练。此外,由于梯度损失的简洁表述和强大的转移能力,在任何生成模型中采用梯度损失作为额外的指导是很方便的。总体目标。总之,我们有两个判别器DI和DGM,分别由L DisI SR和L DisGM SR优化。对于发生器,有两个损失项被用来同时提供监督信号。一个是强加在结构保留的SR分支上,另一个是通过最小化梯度分支(GB)的像素损失L P ixGM GB来重建高质量的梯度图。总体目标定义如下。
在这里插入图片描述
β I SR, γ I SR, β GM SR , γ GM SR 和 β GM GB 表示不同损失的折衷参数。其中,β I SR、β GM SR和β GM GB分别是SR图像、SR图像的重力图和SR梯度图的像素损失权重。γ I SR和γ GM SR是SR图像和其梯度图的对抗性损失的权重。

4. 实验

4.1. 实施细节和评估指标

我们评估了我们提出的SPSR方法的SR性能。我们利用DIV2K[1]作为训练数据集,并利用五个常用的基准进行测试。Set5 [5], Set14 [49], BSD100 [30], Urban100 [18] 和 General100 [9]。我们通过双三次插值对HR图像进行降样以获得LR输入,并在实验中只考虑4倍的缩放系数。我们选择感知指数(PI)[6]、学习感知图像补丁相似度(LPIPS)[50]、PSNR和结构相似度(SSIM)[43]作为评价指标。较低的PI和LPIPS值表示较高的感知质量。

训练细节

我们使用ESR GAN[42]的架构作为我们SR分支的骨干,使用RRDB块[42]作为梯度块。我们从LR图像中随机抽出15个32×32的斑块,用于每个输入小批。因此,真实的HR斑块的大小为128×128。我们用预先训练好的面向PSNR的模型的参数来初始化发生器。像素损失、感知损失、对抗性损失和梯度损失被用作优化目标。一个预先训练好的19层VGG网络[36]被用来计算感知损失中的特征差异。我们也使用VGG风格的网络来进行分辨。ADAM optimizor[26]的β1=0.9,β2=0.999,ǫ=1×10-8被用于优化。我们将生成器和判别器的学习率设置为1×10-4,并在50k、100k、200k、300k的迭代中将其减少到一半。至于损失的权衡参数,我们遵循[42]中的设置,将β I SR和γ I SR相应设置为0.01和0.005。然后我们将梯度损失的权重设定为与图像空间损失的权重相等。因此,β GM SR = 0.01,γ GM SR = 0.005。在β GM GB方面,我们将其设置为0.5,以获得更好的梯度转换性能。所有的实验都由PyTorch[31]在NVIDIA GTX 1080Ti GPU上实现。

在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值