超分辨率：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network论文翻译

KPer_Yang

已于 2022-08-16 09:38:10 修改

阅读量2.2k

点赞数 7

分类专栏：机器学习文章标签：计算机视觉人工智能深度学习

于 2022-08-15 00:35:59 首次发布

本文链接：https://blog.csdn.net/KPer_Yang/article/details/126338932

版权

机器学习专栏收录该内容

87 篇文章 19 订阅

订阅专栏

尽管使用更快和更深的卷积神经网络在单幅图像超分辨率的准确性和速度方面取得了突破，但一个核心问题在很大程度上仍未解决：当我们在较大的放大倍数下进行超分辨率时，我们如何恢复更精细的纹理细节？基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差上。得到的估计具有很高的峰值信噪比，但它们通常缺乏高频细节，并且在感知上不令人满意，因为它们无法匹配在更高分辨率下预期的保真度。在本文中，我们提出了 SRGAN，一种用于图像超分辨率 (SR) 的生成对抗网络 (GAN)。据我们所知，它是第一个能够为 4 倍放大因子推断照片般逼真的自然图像的框架。为了实现这一点，我们提出了一个感知损失函数，它由对抗性损失和内容损失组成。对抗性损失将我们的解决方案推向自然图像流形，使用经过训练的鉴别器网络来区分超分辨率图像和原始照片般逼真的图像。此外，我们使用由感知相似性而不是像素空间中的相似性驱动的内容损失。我们的深度残差网络能够从公共基准的大量下采样图像中恢复照片般逼真的纹理。广泛的平均意见分数 (MOS) 测试显示，使用 SRGAN 在感知质量方面取得了巨大的进步。使用 SRGAN 获得的 MOS 分数更接近于原始高分辨率图像的分数。

介绍：

从低分辨率 (LR) 对应物估计高分辨率 (HR) 图像的极具挑战性的任务称为超分辨率 (SR)。 SR 受到了计算机视觉研究界的广泛关注，并具有广泛的应用 [63,71,43]。欠定 SR 问题的不适定性质对于高放大因子尤为明显，因为重建的 SR 图像中的纹理细节通常不存在。有监督的 SR 算法的优化目标通常是最小化恢复的 HR 图像和地面实况之间的均方误差 (MSE)。最小化 MSE 也会最大化峰值信噪比 (PSNR)，这是用于评估和比较 SR 算法的常用度量 [61]。然而，MSE（和 PSNR）捕捉感知相关差异（例如高纹理细节）的能力非常有限，因为它们是基于像素级图像差异定义的 [60,58,26]。这在图 2 中进行了说明，其中最高 PSNR 不一定反映感知上更好的 SR 结果。超分辨率图像和原始图像之间的感知差异意味着恢复的图像不像 Ferwerda [16] 所定义的那样逼真。在这项工作中，我们提出了一个超分辨率生成对抗网络（SRGAN），我们为此使用了一个带有跳跃连接的深度残差网络（ResNet），并从 MSE 发散作为唯一的优化目标。与以前的工作不同，我们使用 VGG 网络 [49, 33, 5] 的高级特征图和鉴别器定义了一种新颖的感知损失，该鉴别器鼓励在感知上难以区分 HR 参考图像的解决方案。图 1 显示了一个使用 4 倍放大因子超分辨率的逼真图像示例。

在这里插入图片描述

1.1 相关工作：

1.1.1 图像超分辨率

最近关于图像 SR 的综述文章包括 Nasrollahi 和 Moeslund [43] 或 Yang 等人。 [61]。在这里，我们将专注于单幅图像超分辨率（SISR），并且不会进一步讨论从多幅图像中恢复 HR 图像的方法 [4, 15]。基于预测的方法是解决 SISR 的首批方法之一。虽然这些过滤方法，例如线性、双三次或 Lanczos [14] 过滤可以非常快，它们过度简化了 SISR 问题，通常会产生纹理过于平滑的解决方案。已经提出了特别关注边缘保留的方法 [1, 39]。更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射，并且通常依赖于训练数据。许多基于示例对的方法依赖于已知对应 HR 对应物的 LR 训练补丁。 Freeman 等人提出了早期的工作。 [18, 17]。 SR 问题的相关方法起源于压缩感知[62,12,69]。在格拉斯纳等人。 [21] 作者利用图像内跨尺度的补丁冗余来驱动 SR。 Huang等人也采用了这种自相似性范式。 [31]，通过进一步允许小的变换和形状变化来扩展自字典。顾等人。 [25] 提出了一种卷积稀疏编码方法，通过处理整个图像而不是重叠补丁来提高一致性。为了在避免边缘伪影的同时重建逼真的纹理细节，Tai 等人。 [52] 将基于梯度轮廓先验 [50] 的边缘定向 SR 算法与基于学习的细节合成的优点相结合。张等人。 [70] 提出了一种多尺度字典来捕获不同尺度下相似图像块的冗余。为了超分辨率地标图像，Yue 等人。 [67] 从网络上检索具有相似内容的相关 HR 图像，并提出一种结构感知匹配标准进行对齐。邻域嵌入方法通过在低维流形中找到相似的 LR 训练补丁并组合它们相应的 HR 补丁进行重建来对 LR 图像补丁进行上采样 [54, 55]。在 Kim 和 Kwon [35] 中，作者强调了邻域方法过度拟合的趋势，并使用核岭回归制定了更一般的示例对映射。回归问题也可以用高斯过程回归[27]、树[46]或随机森林[47]来解决。在戴等人。 [6] 学习了大量特定于补丁的回归器，并在测试期间选择了最合适的回归器。最近，基于卷积神经网络 (CNN) 的 SR 算法表现出优异的性能。在王等人。 [59]作者基于学习的迭代收缩和阈值算法（LISTA）[23]将稀疏表示编码到他们的前馈网络架构中。董等人。 [9, 10] 使用双三次插值来放大输入图像，并端到端训练三层深度全卷积网络，以实现最先进的 SR 性能。随后，结果表明，使网络能够直接学习升级过滤器可以进一步提高准确性和速度方面的性能 [11,48,57]。凭借他们的深度递归卷积网络 (DRCN)，Kim 等人。 [34] 提出了一种高性能架构，该架构允许远程像素依赖，同时保持模型参数的数量很小。与我们的论文特别相关的是 Johnson 等人的作品。 [33] 和布鲁纳等人。 [5]，他们依靠更接近感知相似性的损失函数来恢复视觉上更有说服力的 HR 图像。

1.1.2 卷积神经网络的设计

随着 Krizhevsky 等人的工作取得成功，许多计算机视觉问题的最新技术同时由专门设计的 CNN 架构设置。 [37]。结果表明，更深层次的网络架构可能难以训练，但有可能大大提高网络的准确性，因为它们允许对非常复杂的映射进行建模 [49, 51]。为了有效地训练这些更深层次的网络架构，批量归一化 [32] 通常用于抵消内部协变量偏移。更深层次的网络架构也被证明可以提高 SISR 的性能，例如金等人。 [34] 制定递归 CNN 并呈现最先进的结果。另一个简化深度 CNN 训练的强大设计选择是最近引入的残差块 [29] 和跳跃连接 [30, 34] 的概念。跳跃连接减轻了对本质上微不足道的恒等映射建模的网络架构，然而，用卷积核表示可能并不简单。在 SISR 的背景下，还表明学习升级过滤器在准确性和速度方面是有益的 [11,48,57]。这是对 Dong 等人的改进。 [10] 在将图像馈送到 CNN 之前，采用双三次插值来放大 LR 观察。 1.1.3 损失函数像素级损失函数（如 MSE）难以处理恢复丢失的高频细节（如纹理）所固有的不确定性：最小化 MSE 鼓励找到合理解决方案的像素级平均值，这些解决方案通常过于平滑，因此具有感知质量差 [42, 33, 13, 5]。不同感知质量的重建在图 2 中以相应的 PSNR 为例。我们在图 3 中说明了最小化 MSE 的问题，其中具有高纹理细节的多个潜在解决方案被平均以创建平滑的重建。在马修等人。 [42] 和丹顿等人。 [7] 作者通过使用生成对抗网络 (GAN) [22] 来应用图像生成来解决这个问题。 Yu 和 Porikli [66] 使用鉴别器损失来增加像素级 MSE 损失，以训练一个网络，该网络可以超分辨率具有大放大因子 (8×) 的人脸图像。 GAN 也用于 Radford 等人的无监督表示学习。 [44]。 Li 和 Wand [38] 以及 Yeh 等人描述了使用 GAN 学习从一个流形到另一个流形的映射的想法。 [64] 用于修复。布鲁纳等人。 [5] 最小化 VGG19 [49] 和散射网络的特征空间中的平方误差。 Dosovitskiy 和 Brox [13] 使用基于在神经网络特征空间中计算的欧几里得距离的损失函数，并结合对抗性训练。结果表明，所提出的损失允许视觉上优越的图像生成，并可用于解决解码非线性特征表示的不适定逆问题。与这项工作类似，Johnson 等人。 [33] 和布鲁纳等人。 [5] 提出使用从预训练的 VGG 网络中提取的特征，而不是低级的逐像素误差测量。具体来说，作者根据从 VGG19 [49] 网络中提取的特征图之间的欧几里德距离制定了一个损失函数。对于超分辨率和艺术风格转移[19, 20]，获得了更令人信服的结果。最近，Li 和 Wand [38] 还研究了在像素或 VGG 特征空间中比较和混合补丁的效果。

1.2. 贡献

GAN 提供了一个强大的框架，用于生成具有高感知质量的看似合理的自然图像。 GAN 过程鼓励重建向搜索空间的区域移动，这些区域具有很高的包含照片般逼真的图像的可能性，因此更接近自然图像流形，如图 3 所示。在本文中，我们描述了第一个非常深的 ResNet [29， 30]架构使用GANs的概念来形成逼真的SISR的感知损失函数。我们的主要贡献是：

• 我们使用针对 MSE 优化的 16 块深度 ResNet (SRResNet)，通过 PSNR 和结构相似性 (SSIM) 测量了具有高放大因子 (4x) 的图像 SR 的最新技术。

• 我们提出SRGAN，它是一种基于GAN 的网络，针对新的感知损失进行了优化。在这里，我们将基于 MSE 的内容损失替换为在 VGG 网络 [49] 的特征图上计算的损失，这对像素空间的变化更加不变 [38]。

• 我们对来自三个公共基准数据集的图像进行了广泛的平均意见得分 (MOS) 测试，确认 SRGAN 在很大程度上是用于估计具有高放大系数的照片般逼真的 SR 图像的最新技术（4 ×)。我们在第 2 节中描述了网络架构和感知损失。第 3 节提供了对公共基准数据集的定量评估以及视觉插图。本文最后在第 4 节进行讨论，在第 5 节结束评论。

方法：

在 SISR 中，目标是从低分辨率输入图像 $I^{LR}$ 估计高分辨率、超分辨率图像 $I^{SR}$ 。这里 $I^{LR}$ 是其高分辨率对应物 $I^{HR}$ 的低分辨率版本。高分辨率图像仅在训练期间可用。在训练中， $I^{LR}$ 是通过对 $I^{HR}$ 应用高斯滤波器，然后使用下采样因子 r 进行下采样操作来获得的。对于具有 C 个颜色通道的图像，我们用大小为 W × H × C 和 $I^{HR}$ 的实值张量来描述 $I^{LR}$ ， $I^{SR}$ 分别用 rW × rH × C表示。

我们的最终目标是训练一个生成函数 G，它为给定的 LR 输入图像估计其对应的 HR 对应物。为了实现这一点，我们将生成器网络训练为由 $\theta_G$ 参数化的前馈 CNN $G_{\theta_G}$ 。这里 $\theta_G = \{W1:L; b1:L\}$ 表示 L 层深度网络的权重和偏差，是通过优化 SR 特定的损失函数 $l^{SR}$ 获得的。对于训练图像 $I^{HR}_n,n = 1, . . . , N$ 在这项工作中，我们将专门设计一个感知损失 $l^{SR}$ 作为几个损失分量的加权组合，这些分量对恢复的 SR 图像的不同期望特征进行建模。 2.2 节更详细地描述了各个损失函数。

2.1 对抗网络结构

Goodfellow 等人的对抗性网络架构。 [22] 我们进一步定义了一个鉴别器网络 $D_{\theta_{D}}$ ，我们以交替的方式与 $G_{\theta_{G}}$ 一起优化它来解决对抗性最小-最大问题：

在这里插入图片描述

这个公式背后的总体思想是，它允许人们训练一个生成模型 G，目的是欺骗一个可微判别器 D，该判别器 D 被训练来区分超分辨率图像和真实图像。通过这种方法，我们的生成器可以学习创建与真实图像高度相似的解决方案，因此难以通过 D 进行分类。这鼓励了驻留在自然图像的子空间（流形）中的感知优越的解决方案。这与通过最小化像素级误差测量（例如 MSE）获得的 SR 解决方案形成对比。我们非常深的生成器网络 G 的核心，如图 4 所示，是具有相同布局的 B 个残差块。受约翰逊等人的启发。 [33] 我们采用 Gross 和 Wilber [24] 提出的块布局。具体来说，我们使用两个具有小型 3×3 内核和 64 个特征图的卷积层，然后是批归一化层 [32] 和 ParametricReLU [28] 作为激活函数。我们使用 Shi 等人提出的两个经过训练的子像素卷积层来提高输入图像的分辨率。 [48]。为了从生成的 SR 样本中区分真实的 HR 图像，我们训练了一个鉴别器网络。架构如图 4 所示。我们遵循 Radford 等人总结的架构指南。 [44] 并使用 LeakyReLU 激活 (α = 0.2) 并避免整个网络的最大池化。鉴别器网络经过训练以解决等式 2 中的最大化问题。它包含 8 个卷积层，其 3 × 3 过滤器内核的数量不断增加，与 VGG 网络 [49] 一样，从 64 到 512 个内核增加了 2 倍。每次特征数量翻倍时，使用跨步卷积来降低图像分辨率。生成的 512 个特征图之后是两个密集层和一个最终的 sigmoid 激活函数，以获得样本分类的概率。

在这里插入图片描述

2.2. 感知损失函数

感知损失函数 $l^{SR}$ 的定义对于我们的生成器网络的性能至关重要。虽然 $l^{SR}$ 通常基于 MSE [10, 48] 建模，但我们改进了 Johnson 等人。 [33] 和布鲁纳等人。 [5] 并设计一个损失函数来评估关于感知相关特征的解决方案。我们将感知损失表示为内容损失 ( $l^{SR}_X$ ) 和对抗性损失分量的加权和：

在这里插入图片描述

2.2.1 内容损失

这是图像 SR 最广泛使用的优化目标，许多最先进的方法都依赖于它 [10, 48]。然而，在实现特别高的 PSNR 的同时，MSE 优化问题的解决方案往往缺乏高频内容，这会导致纹理过于光滑的解决方案在感知上不令人满意（参见图 2）。我们建立在 Gatys 等人的想法之上，而不是依赖于像素损失。 [19]，布鲁纳等人。 [5] 和约翰逊等人。 [33]并使用更接近感知相似性的损失函数。我们根据 Simonyan 和 Zisserman [49] 中描述的预训练 19 层 VGG 网络的 ReLU 激活层来定义 VGG 损失。我们用 $\phi_{i,j}$ 表示在 VGG19 网络中的第 i 个最大池化层之前通过第 j 个卷积（激活后）获得的特征图，我们认为这是给定的。然后，我们将 VGG 损失定义为重建图像 $G_{θ_G}(I^{LR})$ 和参考图像 $I^{HR}$ 的特征表示之间的欧式距离：