SRGAN:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

作者:Christian Ledig, Lucas Theis, Ferenc Husz´ar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi Twitter
论文链接:https://arxiv.org/pdf/1609.04802.pdf
代码链接:https://github.com/brade31919/SRGAN-tensorflow

摘要

  尽管使用更快,更深的卷积神经网络在单图像超分辨率的精度和速度方面取得了突破,但仍然存在一个主要问题仍未解决:当在较大的放大比例下进行超分辨率时,如何恢复精细的纹理细节?基于优化的超分辨率方法的行为主要由目标函数的选择决定。最近的工作主要集中在最小化均方重构误差上。得出的估计值具有很高的峰值信噪比,但是它们通常缺少高频细节,并且在某种意义上无法满足更高分辨率下的保真度,因此在感觉上并不令人满意。在本文中,我们介绍了SRGAN,这是一种用于图像超分辨率(SR)的生成对抗网络(GAN)。据我们所知,这是第一个能够为4倍放大因子推断出逼真的自然图像的框架。为此,我们提出了一种感知损失函数,该函数由对抗损失和内容损失组成。对抗性损失使用鉴别器网络将我们的解决方案推向自然图像流形,该鉴别器网络经过训练以区分超分辨图像和原始逼真的图像。此外,我们使用感知相似性而非像素空间相似性引起的内容损失。我们的深层残差网络能够在公共基准上从严重降采样的图像中恢复逼真的纹理。广泛的均值评分(MOS)测试表明,使用SRGAN可以显着提高感知质量。用SRGAN获得的MOS得分比使用任何最新方法获得的MOS得分更接近原始高分辨率图像的MOS得分。

1.简介

  从低分辨率(LR)对应物估计高分辨率(HR)图像的极富挑战性的任务称为超分辨率(SR)。 SR在计算机视觉研究界得到了广泛的关注,并具有广泛的应用[63,71,43]。

  未确定的SR问题的不适定性对于高比例缩放因子特别明显,因为通常不存在重构SR图像中的纹理细节。 监督SR算法的优化目标通常是最小化恢复的HR图像和地面真实情况之间的均方误差(MSE)。 这是方便的,因为最小化MSE也会使峰值信噪比(PSNR)最大化,这是用于评估和比较SR算法的常用方法[61]。 但是,MSE(和PSNR)捕获感知相关差异(例如高纹理细节)的能力非常有限,因为它们是基于像素方向的图像差异定义的[60、58、26]。 图2对此进行了说明,其中最高PSNR不一定会反映出感知上更好的SR结果。 超分辨图像和原始图像之间的感知差异意味着恢复的图像不是Ferwerda [16]所定义的真实感。

  在这项工作中,我们提出了一个超分辨率的生成对抗网络(SRGAN),为此,我们采用了具有跳过连接的深度残差网络(ResNet),并且将MSE作为唯一的优化目标。 与以前的工作不同,我们使用VGG网络的高级特征图[49、33、5]结合鉴别器来定义一种新颖的感知损失,该鉴别器鼓励在感知上难以与HR参考图像区分开。 在图1中显示了一个示例照片级逼真的图像,该示例具有4倍的放大比例超分辨率。
图1:

图1:超分辨率图像(左)与原始图像(右)几乎没有区别。 [4倍放大]

图2

图2:从左到右:双三次插值,针对MSE优化的深度残差网络,针对对人类感知更敏感的损失优化的深度残差生成对抗网络,原始HR图像。 括号中显示了相应的PSNR和SSIM。 [4倍放大]

1.1. 近期工作

1.1.1 图像超分辨率

  最近有关图像SR的概述文章包括Nasrollahi和Moeslund [43]以及Yang等人 [61]。 在这里,我们将专注于单幅图像超分辨率(SISR),而不会进一步讨论从多幅图像恢复HR图像的方法[4,15]。

  基于预测的方法是解决SISR的第一种方法。 这些过滤方法,例如 线性,双三次或Lanczos [14]过滤可能非常快,它们过分简化了SISR问题,通常会产生纹理过于平滑的解决方案。 已经提出了特别关注边缘保留的方法[1,39]。

  更强大的方法旨在在低分辨率和高分辨率图像信息之间建立复杂的映射,并且通常依赖于训练数据。 许多基于示例对的方法都依赖于LR训练补丁,已知相应的HR对应者。 Freeman等人提出了早期工作 [18,17]。 有关SR问题的相关方法源自压缩感测[62,12,69]。 在格拉斯纳等人[21]的工作中,作者利用图像中各个尺度的补丁冗余来驱动SR。 Huang等人[31]也采用了这种自相似的范式,其中通过进一步允许小的变换和形状变化来扩展自字典。 Gu等人[25]提出了一种卷积稀疏编码方法,该方法通过处理整个图像而不是重叠的补丁来提高一致性。

  为了重建真实的纹理细节的同时避免边缘伪影,Tai等人[52]将基于梯度轮廓先验的边缘导向SR算法[50]与基于学习的细节合成的优点结合起来。 张等人 [70]提出了一种多尺度字典,以捕获不同尺度下相似图像块的冗余。 为了超分辨地标图像,Yue等人 [67]从网络中检索具有相似内容的相关HR图像,并提出用于对齐的结构感知匹配准则。

  邻域嵌入方法是通过在低维流形中找到相似的LR训练斑块并将其相应的HR斑块组合以重建来对LR图像斑块进行上采样[54,55]。 在Kim和Kwon [35]中,作者强调了邻域方法过度拟合的趋势,并使用核岭回归建立了更通用的示例对图。 回归问题也可以通过高斯过程回归[27],树木[46]或随机森林[47]来解决。 在Dai等人[6],学习了许多补丁专用回归器,并在测试期间选择了最合适的回归器。

  最近,基于卷积神经网络(CNN)的SR算法表现出出色的性能。在王等人[59]的工作中,作者根据学习到的迭代收缩和阈值算法(LISTA)将稀疏表示编码到其前馈网络体系结构中[23]。董等人[9,10]使用双三次插值法放大输入图像,并端到端训练了三层深度的全卷积网络(SRCNN),以实现最新的SR性能。随后,研究表明,使网络能够直接学习升级滤波器,可以进一步提高准确性和速度方面的性能[11、48、57]。 Kim等人[34]借助其深度递归卷积网络(DRCN)提出了一种高性能的体系结构,该体系结构允许长距离像素依赖性,同时保持模型参数的数量小。与我们的论文特别相关的是约翰逊等人的著作[33]和布鲁纳等人的著作[5],他们依靠更接近于感知相似性的损失函数来恢复视觉上更具说服力的HR图像。

1.1.2 卷积神经网络的设计

  随着Krizhevsky等人工作的成功,通过专门设计的CNN架构可以同时设置许多计算机视觉问题的最新技术。

  研究表明,较深的网络体系结构可能很难训练,但具有潜力,可以大大提高网络的准确性,因为它们允许建模非常复杂的映射[49,51]。 为了有效地训练这些更深层次的网络体系结构,通常使用批标准化[32]来抵消内部协变量的偏移。 更深层的网络架构还被证明可以提高SISR的性能,例如 Kim等。 [34]制定了递归CNN并提出了最新的结果。 简化深度CNN训练的另一个强大的设计选择是最近引入的残差块[29]和跳过连接[30,34]概念。 跳过连接减轻了建模身份映射的网络体系结构的本质,这是微不足道的,但是对于卷积内核而言,可能微不足道。

  在SISR的背景下,研究还表明,学习升频滤波器在准确性和速度方面都是有益的[11,48,57]。 这是对Dong等人[10]的改进,其中在将图像输入到CNN之前,采用双三次插值法放大了LR观测值。

1.1.3 损失函数

  MSE等像素级损失函数努力应对恢复丢失的高频细节(例如纹理)所固有的不确定性:最小化MSE会鼓励寻找合理解决方案的像素级平均值,这些解决方案通常过于平滑,因此感知质量较差[42] ,33,13,5]。 图2中例举了具有不同感知质量的重构,并通过相应的PSNR进行了示例。我们在图3中说明了最小化MSE的问题,其中对多个具有高纹理细节的潜在解决方案进行了平均,以创建平滑的重构。
图3

图3:来自自然图像流形(红色)的色块以及通过MSE(蓝色)和GAN(橙色)获得的超分辨色块的图示。 基于MSE的解决方案由于像素空间中可能解决方案的按像素取平均值而显得过于平滑,而GAN则将重构推向自然图像流形,从而产生更具说服力的解决方案。

  在Mathieu等人中。 [42]和Denton等。 [7]作者通过将生成对抗网络(GAN)[22]用于图像生成来解决了这个问题。 Yu和Porikli [66]通过鉴别器损失增加了像素级MSE损失,以训练一个网络,该网络可以以较大的放大系数(8×)超分辨人脸图像。 GAN还用于Radford等人的无监督表示学习中。 [44]。 Li和Wand [38]描述了使用GAN来学习从一个流形到另一个流形的映射的想法,Yeh等人[64]对此描述进行了补充。布鲁纳等人 [5]使VGG19 [49]和散射网络的特征空间中的平方误差最小。

  Dosovitskiy和Brox [13]结合基于对抗性训练的神经网络特征空间中计算出的欧几里得距离,使用损失函数。 结果表明,所提出的损失可以产生视觉上优越的图像,并且可以用于解决解码非线性特征表示的不适定逆问题。 类似于这项工作,约翰逊等人 [33]和布鲁纳等人 [5]提出使用从预训练的VGG网络中提取的特征来代替低水平的像素方向误差度量。 具体来说,作者基于从VGG19 [49]网络中提取的特征图之间的欧式距离来制定损失函数。 在超分辨率和艺术风格转移方面,都获得了更具说服力的结果[19,20]。 最近,Li和Wand [38]还研究了在像素或VGG特征空间中比较和混合补丁的效果。

1.2. 贡献

  GAN提供了一个强大的框架,可以生成具有高感知质量的看起来合理的自然图像。 GAN程序鼓励重构物向搜索空间区域移动,从而很有可能包含照片级逼真的图像,从而更接近自然图像流形,如图3所示。

  在本文中,我们使用GAN的概念描述了第一个非常深的ResNet [29,30]架构,以形成逼真的SISR的感知损失函数。 我们的主要贡献是:

  • 我们用优化了MSE的16块深度ResNet(SRResNet)测量了高缩放系数(4x)SR图像的PSNR和结构相似性(SSIM),从而为图像SR设定了新的技术水平。
  • 我们建议SRGAN,这是针对新的感知损失而优化的基于GAN的网络。 在这里,我们将基于MSE的内容损失替换为在VGG网络的特征图上计算的损失[49],该损失对于像素空间的变化更加稳定[38]。
  • 我们对来自三个公共基准数据集的图像进行了广泛的平均意见评分(MOS)测试,结果证明SRGAN很大程度上是最新技术,可用于估计具有高放大倍数的逼真的SR图像(4倍 )。

  我们将在第2节中描述网络体系结构和感知损失。第3节中提供了对公共基准数据集的定量评估以及视觉插图。本文在第4节中进行了讨论,并在第5节中作了总结。

2.方法

  在SISR中,目标是从低分辨率输入图像 I L R I^{LR} ILR估计高分辨率超分辨图像 I S R I^{SR} ISR。 在此, I L R I^{LR} ILR是其高分辨率对应物 I H R I^{HR} IHR的低分辨率版本。 高分辨率图像仅在训练期间可用。 在训练中,通过对 I H R I^{HR} IHR应用高斯滤波器,然后使用降采样因子r进行降采样操作来获得 I L R I^{LR} ILR。 对于具有C个颜色通道的图像,我们分别通过大小为W×H×C和 I H R I^{HR} IHR的实值张量来描述 I L R I^{LR} ILR,通过rW×rH×C来描述 I S R I^{SR} ISR

  我们的最终目标是训练生成函数G,该函数针对给定的LR输入图像估计其对应的HR图像。 为了实现这一目标,我们将生成器网络训练为以 θ G θ_G θG为参数的前馈CNN: G θ G G_{θ_G} GθG。 在此, θ G = { W 1 : L ; b 1 : L } θ_G = \{W_{1:L}; b_ {1:L}\} θG={W1:L;b1:L}表示L层深层网络的权重和偏差,是通过优化SR特定损失函数 l S R l^{SR} lSR获得的。 对于训练图像 I n H R , n = 1 , . . . , N I_n^{HR},n=1,...,N InHR,n=1,...,N及对应的 I n L R , n = 1 , . . . , N I_n^{LR},n = 1,...,N InLRn=1,...,N,我们有:
公式1
  在这项工作中,我们将专门设计一个感知损失 l S R l^{SR} lSR,它是几个损失分量的加权组合,这些损失分量对恢复的SR图像的不同理想特征进行建模。各损失函数在2.2节中有更详细的描述。

2.1. 对抗网络架构

  继Goodfellow等人[22]我们进一步定义了一个鉴别器网络 D θ D D_{θ_D} DθD,我们将它与 G θ G G_{θ_G} GθG交替地优化以解决对抗性最小-最大问题:
公式2
此公式背后的总体思想是,它允许人们训练生成模型G,其目的是欺骗可区分的鉴别器D,该鉴别器D被训练以区分超分辨图像和真实图像。 通过这种方法,我们的生成器可以学习创建与真实图像高度相似的解决方案,从而难以通过D进行分类。这鼓励了自然图像的子空间,流形中存在感知上优越的解决方案。 这与通过最小化逐像素误差测量(例如MSE)而获得的SR解决方案相反。

  在图4中所示的非常深的发电机网络G的核心是B具有相同布局的残差块。 受Johnson等人[33]的启发,我们采用了Gross和Wilber [24]提出的块布局。 具体来说,我们使用两个具有3×3小内核和64个特征图的卷积层,然后使用批处理归一化层[32]和ParametricReLU [28]作为激活函数。 如Shi等人[48]的建议,我们通过两个训练好的子像素卷积层来提高输入图像的分辨率。

  为了从生成的SR样本中区分出真实的HR图像,我们训练了一个鉴别器网络。 该架构如图4所示。我们遵循Radford等人[44]总结的架构准则并使用LeakyReLU激活(α= 0.2)并避免整个网络的最大池化。 鉴别器网络经过训练,可以解决等式2中的最大化问题。它包含8个卷积层,其中3×3过滤器内核的数量不断增加,与VGG网络中的64到512个内核相比增加了2倍[49]。 每当特征数量增加一倍时,将使用步长卷积来降低图像分辨率。 得到的512个特征图后面是两个密集层和一个最终的S型激活函数,以获取样本分类的可能性。
图4

图4:生成器和鉴别器网络的体系结构,其中为每个卷积层指示了相应的内核大小(k),特征图数量(n)和步幅(s)。

2.2. 感知损失函数

  感知损失函数 l S R l^{SR} lSR的定义对于发电机网络的性能至关重要。 虽然通常根据MSE来建模 l S R l^{SR} lSR [10,48],但我们在Johnson等人[33]和布鲁纳等人[5]的文章中进行了改进并设计一个损失函数,以评估在感知上相关特征方面的解决方案。我们将感知损失表示为内容损失 ( l X S R ) (l _X^{SR}) (lXSR)和对抗性损失组成的加权和:
公式3
在下文中,我们描述内容损失 l X S R l _X^{SR} lXSR和对抗损失 l G e n S R l _{Gen}^{SR} lGenSR的可能选择。

2.2.1 内容损失

  按像素计算的MSE损失计算如下:
公式4
这是最先进的图像SR优化目标,许多先进技术都依赖该优化目标[10,48]。 但是,虽然获得了特别高的PSNR,但MSE优化问题的解决方案通常缺少高频内容,这会导致纹理过分平滑的解决方案在感知上不令人满意(请参见图2)。

  相对于依赖于像素损失,我们基于Gatys等人[19]、布鲁纳等人 [5]和约翰逊等人[33]的思想,并使用更接近于感知相似性的损失函数。 我们根据Simonyan和Zisserman [49]中描述的预训练的19层VGG网络的ReLU激活层来定义VGG损失。 用 φ i , j φ_{i,j} φi,j表示由给定的VGG19网络中第i个最大池化层之前的第j个卷积(激活后)获得的特征图。 然后,我们将VGG损失定义为重建图像 G θ G ( I L R ) G_{θ_G}(I^{LR}) GθG(ILR)和参考图像 I H R I^{HR} IHR的特征表示之间的欧式距离:
公式5
  其中, W i , j W_{i,j} Wi,j H i , j H_{i,j} Hi,j描述了VGG网络中各个特征图的尺寸。

2.2.2 对抗损失

  除了到目前为止描述的内容损失外,我们还将GAN的生成成分添加到感知损失中。 通过鼓励欺骗鉴别器网络,这鼓励我们的网络支持驻留在自然图像中的解决方案。 生成损失 l G e n S R l_{Gen}^{SR} lGenSR是根据鉴别器 D θ D ( G θ G ( I L R ) ) D_{θ_D}(G_{θ_G}(I^{LR})) DθD(GθG(ILR))在所有训练样本上的概率定义为:
公式6

  在此, D θ D ( G θ G ( I L R ) ) D_{θ_D}(G_{θ_G}(I^{LR})) DθD(GθG(ILR))表示重构图像 G θ G ( I L R ) G_{θ_G}(I^{LR}) GθG(ILR)是高分辨率自然图像的概率。 为了获得更好的梯度下降效果,我们最小化 − l o g D θ D ( G θ G ( I L R ) ) -logD_{θ_D}(G_{θ_G}(I^{LR})) logDθD(GθG(ILR))而不是[22]中的 l o g [ 1 − D θ D ( G θ G ( I L R ) ) ] log[1-D_{θ_D}(G_{θ_G}(I^{LR}))] log[1DθD(GθG(ILR))]

3. 实验

3.1. 数据和相似性度量

  我们在三个广泛使用的基准数据集Set5 [3],Set14 [69]和BSD100(BSD300的测试集[41])上进行了实验。在低分辨率和高分辨率图像之间以4倍的比例因子执行所有实验。这对应于图像像素减少16倍。为了公平地比较,所有报告的PSNR [dB]和SSIM [58]度量均使用daala软件包在中心裁剪的y通道上进行计算,从每个边界去除4像素宽的条带图像。参考方法的超分辨图像,包括最近的邻居,双三次,SRCNN [9]和SelfExSR [31],是从Huang等人[31]的在线资料中补充的,而Kim等人的DRCN [34]则获得了超分辨率的图像。可在线获得使用SRResNet(损失: l M S E S R l_{MSE}^{SR} lMSESR l V G G / 2.2 S R l_{VGG/2.2}^{SR} lVGG/2.2SR)和SRGAN变体获得的结果。统计学检验以配对的两面Wilcoxon符号秩检验进行,显着性确定为p <0.05。

  读者可能还对GitHub上独立开发的基于GAN的解决方案感兴趣。但是,它只能在有限的一组面孔上提供实验结果,这是一个更受约束且更轻松的任务。

3.2. 训练细节和参数

  我们使用来自ImageNet数据库的35万张图像的随机样本在NVIDIA Tesla M40 GPU上训练了所有网络[45]。这些图像不同于测试图像。我们通过使用降采样因子r = 4的双三次核对HR图像(BGR,C = 3)进行降采样来获得LR图像。对于每个小批量,我们裁剪16个随机的96×96 HR子图像,分别是不同的训练图像。注意,我们可以将生成器模型应用于任意大小的图像,因为它是完全卷积的。我们将LR输入图像的范围缩放到[0,1],将HR图像的范围缩放到[-1,1]。因此,在强度范围为[-1,1]的图像上计算了MSE损失。 VGG特征图也重新缩放了 1 12.75 \frac{1}{12.75} 12.751倍,以获得与MSE损失相当的VGG损失。这等效于将等式5与重定比例系数≈0.006相乘。为了优化,我们使用Adam [36],其中β1 = 0.9。以 1 0 − 4 10^{-4} 104 1 0 − 6 10^{-6} 106的学习率更新迭代对SRResNet网络进行了训练。在训练实际的GAN时,我们采用了训练有素的基于MSE的SRResNet网络作为生成器的初始化以避免不希望的局部最优。所有SRGAN变体都以 1 0 − 4 10^{-4} 104的学习速率进行了 1 0 5 10^5 105次更新迭代,并以 1 0 − 5 10^{-5} 105的较低速率进行了另外 1 0 5 10^5 105次迭代。我们交替更新生成器和鉴别器网络,等效于Goodfellow等人[22]使用的k = 1。我们的生成器网络具有16个相同的(B = 16)残差块。在测试期间,我们关闭批归一化更新,以获得确定性地仅取决于输入的输出[32]。我们的实现基于Theano [53]和Lasagne [8]。

3.3. 平均意见分数(MOS)测试

  我们已经执行了MOS测试,以量化不同方法重建可令人信服的图像的能力。具体来说,我们要求26个评估者为超分辨率图像分配从1(差的质量)到5(优良的质量)的积分。评估人员对Set5,Set14和BSD100上每个图像的12个版本进行了评级:最近邻居(NN),双三次,SRCNN [9],SelfExSR [31],DRCN [34],ESPCN [48],SRResNet-MSE,SRResNet-VGG22*(*在BSD100上未评级),SRGAN-MSE*,SRGAN-VGG22*,SRGANVGG54和原始HR图像。因此,每个评估者对以随机方式呈现的1128个实例(12个版本的19张图像加上9个版本的100张图像)进行了评估。评估者在来自BSD300训练集的20张图像的NN(得分1)和HR(5)版本上进行了校准。在一项初步研究中,我们通过将方法的图像两次添加到较大的测试集中来评估BSD100的10张图像的子集上的26个评估者的校准程序和重测可靠性。我们发现良好的可靠性,并且相同图像的等级之间没有显着差异。评分者非常一致地将NN内插测试图像的评分为1,将原始HR图像的评分为5(参见图5)。

  进行的MOS测试的实验结果总结在表1,表2和图5中。
表1

表1:在Set5和Set14基准数据上,SRResNet和对抗网络的不同损失函数的性能。 MOS得分显着高于(p <0.05)类别中的其他损失*。 [4倍放大]

表2

表2:基准数据上的NN,双三次,SRCNN [9],SelfExSR [31],DRCN [34],ESPCN [48],SRResNet,SRGAN-VGG54和原始HR的比较。 最高度量(PSNR [dB],SSIM,MOS)以粗体显示。 [4倍放大]

图5

图5:BSD100上MOS分数的颜色编码分布。 对于每种方法,评估了2600个样本(100张图像×26个评分者)。 均值用红色标记显示,其中bins围绕值i居中[4倍放大]

3.4. 内容损失的研究

  我们调查了基于GAN的网络在感知损失中不同内容损失选择的影响。 具体来说,我们针对以下内容损失 l X S R l_{X}^{SR} lXSR调查 l S R l^{SR} lSR= l X S R l_{X}^{SR} lXSR+ 1 0 − 3 l G e n S R 10^{-3}l_{Gen}^{SR} 103lGenSR

  • SRGAN-MSE: l M S E S R l_{MSE}^{SR} lMSESR,以标准MSE作为内容损失来考查对抗网络。
  • SRGAN-VGG22:含有 φ 2 , 2 φ_{2,2} φ2,2 l V G G / 2.2 S R l_{VGG/2.2}^{SR} lVGG/2.2SR,它是在表示低层特征的特征图上定义的损失[68]。
  • SRGAN-VGG54:具有 φ 5 , 4 φ_{5,4} φ5,4 l V G G / 5.4 S R l_{VGG/5.4}^{SR} lVGG/5.4SR,其损失定义在来自较深网络层的更高级别特征的特征图上,并且更有可能专注于图像的内容[68、65、40]。 在下文中,我们将此网络称为SRGAN。

  我们还针对两个损失 l M S E S R l_{MSE}^{SR} lMSESR(SRResNet-MSE)和 l V G G / 2.2 S R l_{VGG/2.2}^{SR} lVGG/2.2SR(SRResNet-VGG22)评估了没有对抗成分的生成器网络的性能。我们将SRResNet-MSE称为SRResNet。注意,在训练SRResNet-VGG22时,我们向 l V G G / 2.2 S R l_{VGG/2.2}^{SR} lVGG/2.2SR [2,33]添加了一个额外的总变化损失,权重为 2 × 1 0 − 8 2×10^{-8} 2×108。表1中总结了定量结果,图6中提供了直观示例。即使与对抗性损失相结合,MSE仍可提供具有最高PSNR值的解决方案,但与在敏感度更高的损失分量下获得的结果相比,MSE的感知平滑度和说服力都较小视觉感知。这是由基于MSE的内容丢失和对抗性丢失之间的竞争引起的。我们进一步将那些在基于SRGANMSE的少数重建中观察到的次要重建工件归因于那些相互竞争的目标。对于Set5上的MOS得分,我们无法确定SRResNet或SRGAN的最佳损失函数。然而,就MOS而言,SRGAN-VGG54明显优于Set14上的其他SRGAN和SRResNet变体。我们观察到一种趋势,即与φ2,2相比,使用较高级别的VGG特征图φ5,4可产生更好的纹理细节(参见图6)。补充材料中提供了通过SRGAN通过SRResNet进行感知改进的更多示例。

3.5. 最终网络的性能

  我们将SRResNet和SRGAN与NN,双三次插值和四种最新方法的性能进行了比较。 定量结果总结在表2中,并证明SRResNet(就PSNR / SSIM而言)在三个基准数据集上树立了新的技术水平。 请注意,我们使用了一个公开可用的评估框架(请参阅第3.1节),因此报告的值可能会与原始论文中报告的值略有不同。

  我们进一步获得了SRGAN的MOS额定值以及BSD100上的所有参考方法。 在补充材料中描述了使用SRResNet和SRGAN超分辨的图像示例。 表2中显示的结果证明,SRGAN在很大程度上优于所有参考方法,并为照片级真实感SR设置了新的技术状态。 除了SRCNN和SelfExSR之外,MOS的所有差异(参见表2)在BSD100上都非常重要。 图5中汇总了所有收集的MOS额定值的分布。

4. 讨论与未来工作

  我们使用MOS测试确认了SRGAN出色的感知性能。我们进一步表明,相对于人类视觉系统,诸如PSNR和SSIM之类的标准定量测量方法无法捕获和准确评估图像质量[56]。这项工作的重点是超分辨图像的感知质量,而不是计算效率。提出的模型与Shi等人[48]相反,未针对视频SR进行实时优化。但是,有关网络体系结构的初步实验表明,较浅的网络有可能在降低定性性能的情况下提供非常有效的替代方案。与董等人[10]相反,我们发现更深层次的网络架构是有益的。我们推测ResNet的设计对更深层网络的性能有重大影响。我们发现,更深的网络(B> 16)可以进一步提高SRResNet的性能,但是,这是以更长的培训和测试时间为代价的(参见补充材料)。我们还发现,由于出现了高频伪像,更深层网络的SRGAN变型越来越难以训练。

  针对SR问题的逼真解决方案时,尤为重要的是选择内容损失,如图6所示。在这项工作中,我们发现 l V G G / 5.4 S R l_{VGG/5.4}^{SR} lVGG/5.4SR产生了感官上最令人信服的结果,我们将其归因于更深的网络层的潜力来代表远离像素空间的更高抽象度[68、65、40]的特征。我们推测这些较深层的特征图仅专注于内容,而使对抗性损失集中在纹理细节上,而纹理细节是没有对抗性损失的超分辨图像和逼真的图像之间的主要区别。我们还注意到理想损耗函数取决于应用。例如,产生幻觉细节的方法可能不太适合医疗应用或监视。令人信服的文本或结构化场景的重构[31]具有挑战性,是未来工作的一部分。描述图像空间内容但内容不变的像素空间变化的内容丢失函数的开发将进一步改善照片级逼真的图像SR结果。

5. 总结

  我们描述了一个深度残差网络SRResNet,当使用广泛使用的PSNR度量进行评估时,它将为公共基准数据集设置一个新的技术状态。 我们已经强调了这种以PSNR为中心的图像超分辨率的一些局限性,并介绍了SRGAN,它通过训练GAN来增强内容丢失功能并具有对抗性损失。 通过广泛的MOS测试,我们已经确认,对于大型放大系数(4x)的SRGAN重建比通过最新参考方法获得的重建具有更高的真实感。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值