Structure-Preserving Super Resolution with Gradient Guidance 译文SPSR

最新推荐文章于 2025-04-08 09:46:05 发布

huaziyouyi

最新推荐文章于 2025-04-08 09:46:05 发布

阅读量2.8k

点赞数

分类专栏：超分辨率文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/huaziyouyi/article/details/106055523

版权

超分辨率专栏收录该内容

1 篇文章

订阅专栏

梯度制导结构保持超分辨

摘要

结构在单图像超分辨率（SISR）中起着重要作用。近年来，基于生成性对抗网络（GAN）的研究通过恢复真实感图像促进了SISR的发展。然而，在恢复的图像中总是存在不希望的结构失真。本文提出了一种结构保持的超分辨率方法来解决上述问题，同时保持了基于GAN的方法在产生感知愉悦细节方面的优点。具体来说，我们利用图像的梯度图从两个方面来指导恢复。一方面，通过梯度分支恢复高分辨率梯度图，为SR过程提供额外的结构性先验。另一方面，我们提出了一个梯度损失，对超分辨图像施加二阶限制。与之前的图像空间损失函数一样，梯度空间目标有助于生成网络更加关注几何结构。此外，我们的方法是模型不可知的，这可能用于现成的SR网络。实验结果表明，与目前最先进的感知驱动SR方法相比，我们获得了最佳的PI和LPIPS性能，同时PSNR和SSIM也具有可比性。视觉结果显示了我们在生成自然SR图像的同时恢复结构的优势。

虽然 GAN 可以使 SISR(单幅图像超分)生成比较真实的图像(photo-realistic images)，但生成的图像中仍然会存在一些结构性失真。为了缓解这个问题，本文提出了 SPSR 网络模型，利用图像的梯度图(gradient maps)去引导 SISR 过程，在保留 GAN 的优点的同时，也保留了图像的结构信息。

介绍

单图像超分辨率（SISR）的目标是从低分辨率（LR）图像中恢复高分辨率（HR）图像。SISR是计算机视觉领域的一个基本问题，可以应用于包括监视和卫星图像在内的许多图像分析任务。

他是一个众所周知的不适定问题，因为每个LR输入可能有多个HR解决方案。随着深度学习的发展，许多SR方法被提出。其中大部分是通过测量SR图像和HR图像之间像素级距离的均方误差（MSE）来优化的。然而，这样的目标选择促使一个深度模型产生一个图像，该图像可能是一对多问题可能的人力资源解决方案的统计平均值。因此，这种方法通常会产生具有高峰值信噪比（PSNR）的模糊图像。

因此，一些旨在恢复照片真实感图像的方法最近利用了生成性对抗网络（GAN）[15]，如SRGAN[27]、EnhanceNet[34]、ESRGAN[42]和NatSR[37]。虽然基于GAN的方法可以产生高保真的SR结果，但始终存在着几何畸变以及锐利的边缘和精细的纹理。一些SR示例如图1所示。我们可以看到RCAN[51]为砖恢复模糊但直的边缘，而由感知驱动方法恢复的边缘更尖锐但扭曲。事实上，基于GAN的方法通常存在结构不一致的问题，因为鉴别器可能会在优化过程中引入不稳定因素。提出了一些平衡两种随机共振方法优点的方法。例如，可控特征空间网络（CFSNet）[40]设计了一个交互框架，用于在感知质量和失真减少两个目标之间连续传输。然而，这一内在问题并没有得到缓解，因为这两个目标不能同时实现。因此，有必要明确地指导感知驱动的SR方法来保持结构，以进一步提高SR性能。针对上述问题，本文提出了一种结构保持的超分辨率方法。由于梯度图揭示了图像中每个局部区域的锐度，我们利用这个强大的工具来指导图像恢复。一方面，我们设计了一个梯度分支，将LR图像的梯度图转化为HR图像的梯度图，作为辅助SR问题。恢复后的梯度可以集成到SR分支中，为SR提供结构先验信息，并且梯度可以突出锐度和结构应该注意的区域，从而明确地指导高质量的生成。这种想法的动机是观察到一旦边缘被高保真地恢复，SR任务可以被视为一个颜色填充问题，由LR图像给出强有力的线索。另一方面，我们提出了一个梯度损失来显式地监督恢复图像的梯度图。结合现有方法中的图像空间损失函数，梯度损失限制了相邻像素的二阶关系。这样可以更好地保持结构形态，获得感知质量高、几何畸变少的随机共振结果。此外，我们的方法是模型不可知的，可以潜在地用于现成的SR网络。据我们所知，我们是第一个明确考虑在基于GAN的SR方法中保留几何结构的人。在基准数据集上的实验结果表明，我们的方法通过减少结构畸变，成功地提高了SR的保真度。

图1。不同方法的SR结果。RCAN表示面向PSNR的方法，通常为砖生成直边但模糊的边。包括SRGAN、ESRGAN和NatSR在内的感知驱动方法通常可以恢复更尖锐但几何不一致的纹理。我们的SPSR结果比RCAN更清晰，并且与知觉驱动方法相比保留了更精细的几何结构。最好在屏幕上观看。

相关工作

在这里我们回顾了SISR方法[7，10，12，13，14，19，22，25，38，44，46，47]，可以分为两类：面向PSNR的方法和感知驱动的方法。我们还研究了与梯度相关的方法。

面向PSNR的方法：以前的方法大多针对高PSNR。作为先驱，Dong等人。[8] 提出SRCNN，它首先通过三层CNN将LR图像映射到HR图像。DRCN[24]和VDSR[23]由Kim等人进一步提出。以提高SR性能。此外，Ledig等人。[27]利用ResNet的思想提出SRResNet[17]。Zhang等人。[52]在SR框架中利用剩余致密块提出RDN。他们进一步引入RCAN[51]并在PSNR上取得了优异的性能。Li等人。[28]提出一个反馈框架，逐步完善超分辨率结果。

感知驱动方法：上述方法都集中于获得高PSNR，因此使用MSE损失或L1损失作为损失函数。然而，这些方法通常会产生模糊的图像。Johnson等人。[20] 提出感知损失的概念，以提高恢复图像的视觉质量。Ledig等人。[27]利用对抗性损失[15]来构建SRGAN，它成为第一个能够生成真实照片的HR图像的框架。此外，Sajjadi等人。[34]通过纹理丢失恢复高保真纹理。Wang等人。[42]通过在建议的ESRGAN中引入残余致密块（RRDB）来增强先前的框架。Wang等人。[41]利用语义分割图作为先验，为特定类别生成更自然的纹理。Rad等人。[32]根据对象、背景和边界的标签，提出一种有针对性的知觉损失。尽管这些现有的感知驱动方法确实提高了超分辨率图像的整体视觉质量，但它们在恢复细节时有时会产生包括几何畸变在内的非自然伪影。

梯度相关方法：梯度信息在以前的工作中已经被利用[2，29]。对于SR方法，Fattal[11]通过学习不同分辨率的先验相关性，提出了一种基于图像梯度边缘统计的方法。Sun等人。[39]在表示图像梯度之前，提出一个梯度剖面和一个梯度场变换，以增强超分辨率图像的清晰度。Yan等人。[45]提出了一种基于梯度轮廓锐度的随机共振方法。在这些方法中，统计依赖性通过根据LR图像中观察到的参数估计HR边缘相关参数来建模。然而，建模过程是逐点完成的，既复杂又不灵活。实际上，深度学习在处理像素分布上的概率变换上表现突出。然而，很少有方法能在梯度相关的随机共振方法中发挥其强大的能力。此外，Zhu等人。[53]通过收集梯度模式字典和建模可变形梯度成分，提出了一种基于梯度的SR方法。扬等人。[48]提出了一种递归残差网络来重建由现成边缘检测器提取的边缘引导的精细细节。虽然边缘重建和梯度场约束在一些方法中得到了应用，但它们的目的主要是为了恢复PSNR定向SR方法的高频分量。与这些方法不同，我们的目标是减少基于GAN的方法产生的几何畸变，并利用梯度图作为SR的结构指导。对于深对抗网络，梯度空间约束可以为更好的图像重建提供额外的监督。据我们所知，没有一种基于GAN的SR方法利用梯度空间制导来保持纹理结构。本文旨在利用梯度信息进一步改进GAN基SR方法。

方法

在本节中，我们首先介绍总体框架。然后给出了梯度分支、注意融合模块和最终目标函数的详细描述。

3.1综述

在SISR中，我们的目标是以LR图像作为输入，以给的HR图像作为真实数据生成SR图像。我们把生成器表示为G，它的参数表示为θ，然后我们得到。应尽可能类似于。如果通过损失函数L优化参数，我们有以下公式：

总体框架如图2所示。该发生器由两个分支组成，一个是保留结构的SR分支，另一个是梯度分支。SR分支接受输入，目的是利用SR梯度图从梯度分支恢复SR输出。

图2。SPSR方法的总体框架。我们的架构由两个分支组成，SR分支和渐变分支。梯度分支旨在将LR梯度映射超级分解为HR对应的梯度映射。它结合了SR分支的多级表示来减少参数，并输出梯度信息，依次通过一个融合块来指导SR过程。最终的SR输出不仅通过传统的图像空间损失进行优化，而且还通过提出的梯度空间目标进行优化。

3.2结构细节

3.2.1梯度分支

梯度分支的目标是估计梯度图从LR模态到HR模态的平移。图像I的梯度图是通过计算相邻像素之间的差来获得的：

其中M（·）表示提取梯度幅值的操作，其元素是坐标x=（x，y）的像素的渐变长度。通过固定核的卷积层可以很容易地得到梯度。实际上，我们不考虑梯度方向信息，因为梯度强度足以揭示恢复图像中局部区域的锐度。因此我们采用强度图作为梯度图。这种梯度图可以看作是另一种图像，因此可以利用图像到图像的转换技术来学习两种模式之间的映射。转换过程相当于从LR边缘锐度到HR边缘锐度的空间分布转换。由于梯度图的大部分区域接近于零，卷积神经网络可以更集中于轮廓的空间关系。因此，网络可以更容易地捕获结构相关性，从而生成SR图像的近似梯度图。

如图2所示，梯度分支包含来自SR分支的几个中间层表示。这种方案的动机是设计良好的SR分支能够携带丰富的结构信息，这对梯度图的恢复至关重要。因此，我们利用这些特征作为强先验来提高梯度分支的性能，在这种情况下，梯度分支的参数可以大大降低。在每两个中间特征之间，都有一个梯度块，梯度块可以是提取高级特征的任何基本块。一旦通过梯度分支得到SR梯度图，就可以将得到的梯度特征集成到SR分支中，从而指导SR重建。梯度图的大小可以隐式地反映恢复区域是尖锐的还是光滑的。在实际应用中，我们将梯度分支的下一个最后一层生成的特征映射馈送给SR分支。同时，通过1×1卷积层生成输出梯度图，并将这些特征图作为输入。

3.2.2保留结构的SR分支

我们设计了一个保留结构的SR分支来获得最终的SR输出。这个分支由两部分组成。第一部分是一个规则的随机共振网络，它由多个生成神经块组成，可以是任何结构。这里我们介绍ESRGAN[42]提出的剩余致密块（RRDB）中的剩余。原始模型中有23个RRDB块。因此，我们将第5、10、15、20个块的特征映射合并到梯度分支。由于常规SR模型只产生3个通道的图像，因此我们去除最后一个卷积重建层，并将输出特征反馈给连续部分。SR分支的第二部分连接如上所述从梯度分支获得的SR梯度特征图。我们通过融合块将两个分支的特征融合在一起来融合结构信息。具体来说，我们将这两个特征连接起来，然后使用另一个RRDB块和卷积层来重建最终的SR特征。值得注意的是，我们只在SR分支中添加了一个RRDB块。因此，与23个块的原始模型相比，参数增量很小。

3.3目标函数

卷积损失：大多数SR方法都是通过一个共同的像素级损耗来优化精心设计的网络，这对于PSNR测量的超分辨率任务是有效的。这种度量可以减少恢复图像与地面真实图像之间的平均像素差，但其结果可能不太适合用于视觉效果的保持。然而，这种损失仍然被广泛使用：

中提出了感知损失的概念，以提高恢复图像的感知质量。包含语义信息的特征由预先训练的VGG网络提取[36]。HR图像特征和SR图像特征之间的欧几里德距离在知觉损失方面最小化：

其中φi（.）表示VGG模型的第i层输出。

方法[27,42]基于生成性对抗网络（GANs）[3,4,15,16,21,33]在SR问题中也起重要作用。鉴别器和生成器G通过两人游戏进行优化，如下所示：

在文[21,42]的基础上，我们引入相对论平均GAN（RaGAN）来实现实际中的优化。上述目标函数所监督的模型只考虑图像的空间约束，而忽略了梯度空间所提供的语义结构信息。虽然生成的结果看起来很逼真，但也有一些不希望的几何扭曲。因此我们引入梯度损失来缓解这个问题。

图3。一个简单的一维案例的说明。第一行显示像素序列，第二行显示相应的梯度图。

梯度损失：图3清楚地说明了我们的动机。这里我们只考虑一个简单的一维情况。如果模型仅在图像空间中通过L1损失进行优化，我们通常得到如图3（b）所示的SR序列，给定的输入测试序列的地面真值为如图3（a）所示的锐边。由于模型倾向于从训练数据中给出可能的高分辨率图像解决方案的统计平均值，因此无法恢复锐利的边缘。在这种情况下，如果我们计算并显示两个序列的梯度大小，可以观察到SR梯度是平的，值很低，而HR梯度是尖峰最高值。他们相距很远。这启发我们，如果在优化目标中加入二阶梯度约束，模型可以从梯度空间中学习到更多的知识。它有助于模型聚焦于相邻结构，从而可以更恰当地推断局部尖锐度强度。因此，如果捕捉到如图3（f）所示的梯度信息，则恢复图3（c）的概率显著增加。SR方法可以从这些指导中受益，以避免过度平滑或过度锐化恢复。而且，在梯度空间中更容易提取几何特征。因此，几何结构也可以很好地保留，从而产生更逼真的SR图像。

在上图中，上面三张小图是空间内的信号，下面三张小图是各自对应的梯度。如果我们使用 L1 loss 去优化网络的话，相对于真实的 HR 图像(a)，我们常常获得的超分图像是(b)，可以看到他们在梯度上相差很远(d和e)，如果我们能够在梯度上学到一些信息(f)，那么我们将会获得比较好的超分图像(c)。因此我们有必要对图像的梯度信号进行学习。

这里我们提出了一个梯度损失来实现上述目标。由于我们已经提到梯度图是反映图像结构信息的理想工具，因此它也可以作为二阶约束来为生成器提供监控。我们通过减小从SR图像中提取的梯度图与从相应的HR图像中提取的梯度图之间的距离来计算梯度损失。在图像和梯度域的监督下，生成器不仅可以学习良好的外观，而且还可以避免细节的几何失真。因此，我们设计了两个损失项来惩罚SR和HR图像的梯度图（GM）的差异。一种是基于像素级的损失，如下所示：

另一种方法是判断梯度片是否是HR梯度图中的梯度片。我们设计了另一个梯度鉴别器网络来实现这一目标：

梯度鉴别器还可以通过对抗性学习监督SR结果的生成：

注意，M（·）运算中的每个步骤都是可微的。因此，具有梯度损失的模型可以进行端到端的训练。此外，梯度损失公式简洁，传递性强，在任何生成模型中都可以方便地采用梯度损失作为附加制导。

总体目标：总之，我们有两个鉴别器，分别用和优化。对于生成器，使用两个损耗项同时提供监控信号。一种是在保留结构的SR分支上，另一种是在梯度分支上通过最小化像素损失来重建高质量的梯度图。总体目标定义如下：

表示不同损失的权衡参数。其中和分别是SR图像、SR图像梯度图和SR梯度图的像素损失权重。是SR图像及其梯度图的对抗损失的权重。

实验

4.1实施细节

数据集和评估指标：我们评估了我们提出的SPSR方法的SR性能。我们使用DIV2K[1]作为训练数据集和五个常用的测试基准：Set5[5]、Set14[49]、BSD100[30]、Urban100[18]和General100[9]。通过双三次插值对HR图像进行降采样，得到LR输入，实验中只考虑了4×尺度因子。选择感知指数（PI）[6]、学习感知图像块相似度（LPIPS）[50]、PSNR和结构相似度（SSIM）[43]作为评价指标。较低的PI和LPIPS值表示较高的感知质量。

训练细节：我们使用ESRGAN[42]的架构作为SR分支的主干，使用RRDB块[42]作为梯度块。我们从LR图像中随机抽取15个32×32的小批量输入补丁。因此，地面真面片的大小为128×128。我们使用预先训练的面向PSNR模型的参数初始化生成器。以像素损失、知觉损失、对抗损失和梯度损失为优化目标。使用预先训练的19层VGG网络[36]计算感知损失中的特征距离。我们还使用VGG类型的网络来执行区分。ADAM optimizer[26]，β1=0.9，β2=0.999和用于最优化。对于生成器和鉴别器，我们将学习速率设置为1×10-4，并在50k、100k、200k、300k迭代时将其减少一半。关于损失的权衡参数，我们按照[42]中的设置，相应地将βI SR和γI SR设置为0.01和0.005。然后将梯度损失的权重设置为图像空间损失的权重。因此βGM SR=0.01和γGM SR=0.005。对于βGM-GB，我们将其设置为0.5，以获得更好的梯度平移性能。所有实验均由PyTorch[31]在nvidiagtx1080tigpus上实现。

4.2结果与分析

定量比较：我们将我们的方法与最先进的感知驱动SR方法进行定量比较，包括SFTGAN[41]、SRGAN[27]、ESRGAN[42]和NatSR[37]。PI、LPIPS、PSNR和SSIM值的结果见表1。在每一行中，最好的结果用红色突出显示，而第二个最好的结果用蓝色突出显示。我们可以看到在所有的测试数据集SPSR达到了最好的PI和LPIPS性能。同时，在大多数数据集中，我们得到了次优的PSNR和SSIM值。值得注意的是，虽然NatSR在所有数据集中获得了最高的PSNR和SSIM值，但我们的方法在PI和LPIPS方面远远超过了NatSR。此外，NatSR不能在任何测试集中获得次优的PI和LPIPS值。因此，NatSR更像是一种面向PSNR的SR方法，与其他感知驱动方法相比，该方法在PSNR较高的情况下往往会产生相对模糊的结果。此外，在SR分支网络参数仅增加一点的情况下，我们得到了比ESRGAN更好的性能。因此，实验结果显示我们的SPSR方法在同时获得优良的知觉品质和轻微的失真方面具有优越的能力。

定性比较：我们还对知觉驱动的SR方法进行视觉比较。从图4中我们可以看出，我们的结果比其他方法更自然、更现实。对于第一幅图像，SPSR能够正确地推断出砖块的锐利边缘，说明我们的方法能够捕捉到图像中物体的结构特征。在其他行中，我们的方法也恢复了比SR方法更好的纹理。我们的结果结构清晰，没有严重的扭曲，而其他方法未能显示出令人满意的外观对象。最后一行的渐变图如图5所示。我们可以看到其他方法的梯度图往往具有较小的值或包含结构退化，而我们的方法是大胆和自然的。定性比较表明，本文提出的SPSR方法能够从梯度空间中提取更多的结构信息，通过保留几何结构来生成具有真实感的SR图像。用户研究：我们进一步进行用户研究，以评估不同SR方法的视觉质量。详细设置和结果将在补充资料中列出。

表1。在基准数据集上与最新的感知驱动SR方法的比较。最佳表现用红色（第一名）和蓝色（第二名）突出显示。我们的SPSR同时获得了最佳的PI和LPIPS值以及可比较的PSNR和SSIM值。NatSR更像是一种面向PSNR的方法，因为它具有较高的PSNR和SSIM以及相对较差的PI和LPIPS性能。

图四，与最先进的知觉驱动的SR方法的视觉比较。结果表明，SPSR方法在结构恢复方面明显优于其他方法，同时生成了令人满意的SR图像。最好在屏幕上观看。

图5。梯度图与最新感知驱动SR方法的比较。提出的SPSR方法能较好地保持梯度和结构。最好在屏幕上观看。

消融研究：Ablation Study:我们在不同的模型上进行了更多的实验，以验证我们提出的框架中每个部分的必要性。自从我们应用了ESRGAN在我们SR的分支上，我们使用ESRGAN作为基线。我们比较了三个模型。第一种算法与ESRGAN算法具有相同的结构，不需要梯度分支（GB），同时利用图像空间和梯度空间损失进行训练。第二种是无梯度损失（GL）的训练，但在网络中有梯度分支。第三个是我们提出的SPSR模型，同时利用了梯度损失和梯度分支。实验结果表明，SPSR w/o GB比ESRGAN具有更高的PI性能，证明了所提出的梯度损失在提高感知质量方面的有效性。此外，SPSR w/o GL的结果也表明，梯度分支在相对保留另一分支的同时，显著地提高了PI或PSNR。从完整的模型来看，SPSR在所有测试集的所有度量上都优于ESRGAN。因此，我们的方法的有效性得到了明确的验证。

梯度分支的效果：为了验证梯度分支的有效性，我们还将输出梯度图如图6所示。给定具有锐利边缘的HR图像，提取的HR梯度图对于图像中的对象可能具有薄而清晰的轮廓。然而，从LR对应的梯度图中提取的梯度图通常在双三次上采样后具有粗线。我们的梯度分支以LR梯度图为输入，生成HR梯度图，为SR分支提供明确的结构信息作为指导。将梯度生成作为一个图像翻译问题来处理，可以充分发挥deep模型强大的生成能力。从图6（d）中的输出梯度图中，我们可以看到我们的梯度分支成功地恢复了薄的、结构良好的梯度图。

我们进行了另一个实验来评估梯度分支的有效性。在一个完整的SPSR模型中，我们通过将梯度分支设置为0来移除特征，并且只使用SR分支进行推理。可视化结果如图7所示。从补丁中，我们可以看到只有SR分支超分辨的毛发和胡须比完全模型恢复的毛发和胡须更模糊。细节纹理的变化表明，梯度分支可以帮助产生锐利的边缘，以获得更好的感知逼真度。

表2。不同部件模型的比较。将突出显示最佳结果。SPSR w/o GB在所有基准数据集中的PI性能均优于ESRGAN。SPSR在所有测试集的所有测量上都优于ESRGAN。

图6。梯度图可视化（General100中的“im 073”）。HR梯度图的轮廓较薄，而LR梯度图的轮廓较厚。我们的梯度分支能够恢复具有愉快结构的HR梯度图。

图7。无梯度分支和有梯度分支的模型的SR比较（集合14中的“狒狒”）。由完整模型恢复的图像比仅由SR分支特征生成的图像具有更清晰的纹理

结论

本文提出了一种基于梯度引导的结构保持超分辨率方法（SPSR），以解决感知驱动方法SR结果中普遍存在的几何畸变问题。我们从两个方面保留了几何结构。首先，我们建立一个梯度分支，目的是从LR分支中恢复高分辨率梯度图，并将梯度信息提供给SR分支作为显式的结构制导。其次，我们提出了一种新的梯度损失来对恢复的图像施加二阶限制。在图像空间和梯度空间的监督下，可以更好地捕捉几何关系。在五个常用的基准测试集上的定量和定性实验结果表明了本文方法的有效性。