esrgan_ESRGAN: 增强型超分辨率生成对抗网络

最新推荐文章于 2024-08-21 11:41:54 发布

weixin_39986543

最新推荐文章于 2024-08-21 11:41:54 发布

阅读量771

点赞数

文章标签： esrgan

本文链接：https://blog.csdn.net/weixin_39986543/article/details/111649541

版权

本文深入研究了SRGAN的网络架构、对抗性损失和感知损失，提出增强型SRGAN（ESRGAN）。通过引入无批量标准化的Residual-in-Residual Dense Block（RRDB），改进相对判别器和感知损失，ESRGAN在视觉质量上有显著提升，特别是在纹理逼真度和自然性上。在PIRM2018-SR挑战赛中，ESRGAN获得了第一名，证实了其在超分辨率领域的优越性。

摘要由CSDN通过智能技术生成

译者语：最近在老影片复原中常用到的超分辨率算法

摘要 Abstract

超分辨率生成对抗网络(SR GAN)[1]是一项开创性的工作，它能够在单图像超分辨率任务中生成逼真的纹理。然而，虚幻的细节通常伴随着令人不快的伪影。
为了进一步提高视觉质量，我们深入研究了SRGAN 网络架构，对抗性损失和感知损失这三个关键组成部分，并对其中每一项都进行了改进，产生了一个增强型SRGAN(ESRGAN)。
特别需要注意的是，我们在没有使用批量标准化的情况下引入RRDB Residual-in-Residual Dense Block作为基本网络构建单元。
此外，我们借用RaGAN [2]的思想来让判别器预测图像的相对真实性而不是图像的绝对真实性。
最后，我们使用激活前的特征来改善感知损失，这可以提供对亮度一致性和纹理恢复更强的监督力。
从这些改进中，所提出的ESRGAN实现了更好的视觉质量，具有比SRGAN更逼真和自然的纹理并且赢得了PIRM2018-SR Challenge1中的第一名[3]。

1 介绍 INTRODUCTION

单图像超分辨率(SISR)作为一种基本的低级视觉问题，已经引起了研究界和AI公司越来越多的关注。SISR旨在从单个低分辨率(LR)图像中恢复高分辨率(HR)图像。自从Dong[4]等人提出的SRCNN的先驱工作以来，深度卷积神经网络(CNN)方法带来了超分辨率领域的繁荣发展。大家制定了各种网络架构设计和训练策略不断提高SR性能，其中常用的就有峰值信噪比(PSNR)值[5,6,7,1,8,9,10,11,12]。
然而，这些面向PSNR的方法往往会输出过度平滑的结果，而没有足够的高频细节，因为PSNR指标从根本上和人类观察者的主观评价不同[1]。

大家提出了几种感知驱动方法来改善SR结果的视觉质量。例如，提出感知损失[13,14]来优化特征空间中的超分辨率模型而不是像素空间。生成的对抗性网络[15]被[1,16]引入SR任务，以鼓励产生更像自然图像的解决方案。语义图像的先验知识也被进一步合并以改善恢复的纹理细节[17]。
在超分辨率的研究中，SRGAN [1]是一块里程碑，它从视觉效果上来说给出了令人愉悦的结果。基本模型使用残差块[18]构建，并使用GAN框架中的感知损耗进行优化。通过所有这些技术，SRGAN和面向PSNR的方法相比显著提高了重建的整体视觉质量。然而，SRGAN结果与真实数据(GT)图像之间仍存在明显差距，如图1所示。

在本研究中，我们重新审视了SRGAN的关键组件，并从三个方面改进了模型。

首先，我们通过引入Residual-in-Residual Dense
Block (RDDB)来改进网络结构，该结构具有更高的容量和更容易训练。
我们还删除了[20]中的批量标准化(BN)[19]层，并使用残差缩放[21,20]和更小的初始化来促进训练非常深的网络。

其次，我们使用相对平均GAN(RaGAN)来改进判别器[2]，它学会判断一个图像比另一个图像更真实，而不是“一个图像是真实的还是假的”。我们的实验表明这种改进有助于生成器恢复更真实的纹理细节。

第三，我们建议通过在激活之前使用VGG特征而不是像SRGAN中激活后使用VGG特征来改善感知损失。

我们凭经验发现调整后的感知损失提供了更清晰的边缘和更加视觉上令人愉悦的结果，如第4.4节所示。大量实验表明，增强型SRGAN，称为ESRGAN，在锐度和细节方面始终优于最先进的方法(见图1和图7)。
我们采用ESRGAN的变体参与PIRM-SR挑战[3]。这一挑战是第一次基于[22]以感知质量意识方式评估表现的SR竞赛，其中作者声称失真和感知质量是相互矛盾。感知质量由non-reference measures of Ma's score[23]和NIQE[24]来判断，即感知指数。较低的感知指数代表更好的感知质量。

如图2所示，感知 - 失真平面被划分为由均方根误差(RMSE)上的阈值定义的三个区域，并且在每个区域中实现最低感知指数的算法成为区域冠军。
我们主要关注区域3，因为我们的目标是将感知质量提升到新的高度。

由于上述改进和Sec4.6中讨论的一些其他调整，我们提出的ESRGAN在PIRM-SR挑战赛(第3区)中以最佳感知指数获得了第一名。我们展示了EDSR [20]，RCAN [12]和EnhanceNet [16]以及提交的ESRGAN模型的基线。蓝点由图像插值产生。

为了平衡视觉质量和RMSE/PSNR，我们进一步提出了网络插值策略，可以不断调整重建风格和平滑度。另一种替代方案是图像插值，其直接逐像素地插入图像。我们采用这种策略参与区域1和区域2。网络插值和图像插值策略及其差异在Sec3.4中讨论。

2 相关工作 Related Work

我们专注于深度神经网络方法来解决SR问题。作为一项先驱工作，Dong等人[4,25]提出SRCNN以端到端的方式学习从LR到HR图像的映射，与以前的工作相比具有更好的性能。

后来，该领域见证了各种网络架构，如具有残差学习的更深层网络[5]，拉普拉斯金字塔结构[6]，残差块[1]，递归学习[7,8]，密集连接网络[ 9]，深背投影[10]和残余密集网络[11]。

具体而言，Lim等[20]通过去除残余块中不必要的BN层并扩展模型尺寸来提出EDSR模型，从而实现了显着的改进。
Zhang等[11]提出在SR中使用有效残余密集块，并进一步探索具有信道关注的更深层网络[12]，从而实现最先进的PSNR性能。
除了监督学习外，还引入了其他方法，如强化学习[26]和无监督学习[27]，以解决一般图像恢复问题。

大家已经提出了一些方法可以稳定训练一些非常深的模型。例如，使用残差路径(residual path)以稳定训练并改善性能[18,5,12]。Szegedy等人[21]首先采用残差缩放(Residual scaling )，EDSR也用了这种方法。对于一般的深度网络，He等人[28]提出了一种针对没有BN的VGG型网络的鲁棒初始化方法。

为了便于训练更深的网络，我们开发了一个紧凑而有效的剩余残留密集块，这也有助于提高感知质量。

除此之外，大家还提出了感知驱动方法来改善SR结果的视觉质量。基于更接近感知相似性的想法[29,14]，Johnson提出了感知损失[13]，通过最小化特征空间中的误差而不是像素空间来增强视觉质量