Real-world single image super-resolution: A brief review

arxiv.org/pdf/2103.02368.pdf

        根据现有RSISR方法的主要原理和特点,我们将其分为四类,即基于退化建模的方法、基于图像对的方法、基于域翻译的方法和基于自学习的方法。值得注意的是,当从不同的角度看待一种方法时,它可能属于不同的类别。

基于退化建模的RSISR

        模糊核和超分辨图像可以使用深度神经网络进行联合优化。一般来说,模糊核的不匹配会导致超分辨率图像出现伪影,如过度平滑或过度锐化。基于这一观察,Gu等[IKC]和Cornillere等[VBSR]提出根据超分辨图像的质量逐步校正不准确的核更具体地说,他们开发了退化感知的SR网络来生成HR图像,其中模糊核作为SR的辅助信息,同时使用相应的深度神经网络的设计是在中间SR结果的指导下对核进行校正。与之前的方法[IKC,VBSR]不同,Huang等人[DAN]开发了一种深度交替网络(DAN)用于rissr,其中超分辨图像和模糊核之间的迭代优化过程展开为端到端可训练网络,DAN由一系列交替堆叠的恢复器和估计器组成,分别负责HR图像的恢复和模糊核的估计。在对比学习的激励下,Wang等人[DASR对比学习]提出了一种基于无监督退化表征学习的无显式退化估计SR框架具体来说,为了区分不同的退化,首先通过对比学习从LR图像中提取判别表征,并将其输入到退化感知SR网络中。对于上述方法,我们将退化模块和SR模块联合学习,使它们协调一致。联合优化后的超分辨图像精度更高。

        先前的研究表明,自然图像先验,如patch递归性,对退化建模是有用的。估计的模糊核可以用于人工地降低LR输入或自然HR图像。[NBSR深度学习之前]的结果表明,模糊核估计的精度增强导致合成图像和真实图像的SR性能明显提高。

        退化建模对于基于深度学习的SR方法也至关重要。基于深度卷积神经网络(CNN)的SISR方法通常在标准基准测试中获得最先进(SOTA)的结果。然而,当应用于真实世界的图像时,它们的性能是有限的。主要原因是用于生成训练数据的核(例如,“双立方”核)与真实场景中的模糊有很大不同。为了解决这个问题,最近提出的一些基于深度学习的risr方法采用预估计的退化参数来生成用于模型训练的样本。例如,受patch递归性的启发,Bell-Kligler等开发了一种图像特定的内部gan(即KernelGAN),用于学习patch的内部分布KernelGAN仅使用LR测试图像进行训练,这使得其鉴别器无法区分原始LR输入的patch分布与生成器生成的LR图像的降级版本。经过与鉴别器的联合训练,生成器可以很好地描述图像特定核的退化过程。然后,由生成器生成的LR测试图像及其降级版本形成成对数据,用于SR模型训练。考虑KernelGAN没有充分利用各向异性高斯模糊核,Liang等[FKP]提出了一种基于流的核先验(flow-based kernel prior, FKP)的核建模方法具体来说,通过学习核空间和潜空间之间的可逆映射来捕获核分布。由于FKP也是以无监督的方式进行训练的,因此它可以用来取代KernelGAN和其他方法中的核建模模块。Bulat等人[FISR(退化GAN网络)]从未配对的HR和LR人脸图像中训练基于生成式对抗网络(GAN)的退化模型,然后使用学习到的网络生成用于SR网络训练的图像对类似地,Deng等人[IR3DEM]首先使用来自各向异性3D EM体的未配对的LR轴向和HR横向图像来学习3D电子显微镜(EM)图像的真实轴向退化,然后基于学习到的退化模型生成真实的配对训练数据。与FISR不同的是,在[IR3DEM]中,循环一致性被用于退化建模。Zhou等人[KMSR]提出从真实世界的照片中获取一组逼真的模糊核,并对其进行GAN训练以增强模糊核池。利用增强的内核池,可以构建更加真实和多样化的LR-HR图像对来训练SR模型。类似地,Xiao等人[DML]通过从真实世界的图像对中学习一组基本模糊核和相应的逐像素权重来建模空间变异退化。然后使用学习到的逼真退化模型生成伪逼真的LR-HR图像对。Ji等人[RealSR]将这一想法进一步推进,使用各种逼真的模糊核和噪声分布开发了一个有效的退化框架,赢得了真实世界图像超分辨率的NTIRE 2020挑战赛。最近,Zhang等人[BSRGAN]开发了一种更复杂的退化模型,以尽可能多地涵盖真实场景的退化,该模型由随机洗刷的模糊、下采样和噪声退化组成。该复合退化模型在合成数据集和真实数据集上训练的深度盲SR模型在两种合成数据集上都表现良好。基于退化建模的rissr方法的优异性能证明了退化建模是有意义的,这种方法是解决真实图像SR问题的可行方法。

基于图像对的RSISR

 

        尽管可以根据预定义的退化模型从高质量图像合成成对的LR-HR训练数据,但从真实图像中导出明确的逼真的退化模型是具有挑战性的。针对这一问题,研究人员[83-89]提出直接采集同一场景不同分辨率的图像,然后利用这些图像构建真实的LR-HR图像对进行risr模型训练。总体而言,如图9所示,目前主要有三种收集真实世界图像用于数据集构建的方法,包括基于焦距调整的方法[84-88]、基于硬件分束的方法[83]和基于分束器的方法[89]

Although paired LR-HR training data can be synthesized from highquality images according to pre-defined degradation models, deriving explicit realistic degradation models from real-world images is challenging. To deal with this problem, researchers [83–89] propose to directly collect the images of the same scene with different resolutions, which are then used to construct realistic LR-HR image pairs for RSISR model training. Overall, as illustrated in Fig. 9, currently there are three main ways to collect real-world images for dataset building, comprising the focal length adjusting-based approach [84–88], the hardware binning-based approach [83], and the beam splitter-based approach [89]. 

        使用上述图像收集方法构建的具有代表性的真实数据集如上图描述。因此,本节主要关注基于这些真实数据集开发的risr模型。直观地说,给定LR-HR图像对,几乎所有现有的监督SR方法(如SRCNN、VDSR、EDSR、RDN、SRGAN等)都可以用来学习LR图像到HR对应图像的映射。从真实世界数据集中学习映射应该适用于真实世界图像的SR。然而,事实上挑战依然存在。

        例如,真实世界图像的退化核通常是不均匀的,且会随着场景深度等因素而变化。这意味着每个像素点所经历的退化过程可能并不相同,因此,采用传统的深度卷积神经网络(CNN)超分辨率(SR)方法,即对所有像素进行相同的处理,可能并不是最佳的解决方案。针对这一问题,Cai等[84]提出了LP-KPN,将拉普拉斯金字塔与逐像素核预测网络(KPN)相结合,取得了良好的SR性能和高效率另一个不容忽视的挑战是在收集的真实数据集中LR和HR图像对之间的不对齐。虽然进行图像配准是为了对准真实的图像对,但不对齐是不可避免的。当使用这些数据集训练具有像素到像素损失的SR模型(例如𝑙1和𝑙2)时,由于不对准的结果,可能会在重建的HR图像中引入模糊伪影。受上下文损失和边缘保持双边滤波器的启发,Zhang等[87]提出了上下文双边损失(contextual bilateral loss, CoBi)来解决这一问题CoBi结合像素级信息和空间像素坐标来测量图像相似度。

        此外,CoBi中还联合考虑了RGB图像补丁和预训练感知特征(如VGG-19)这两个空间,以进一步提高性能。结果表明,CoBi对有监督SR模型训练中真实图像对的轻微不对准具有较强的鲁棒性。考虑到像素损失通常更侧重于平滑平坦区域和锐化边缘,而在某种程度上忽略了纹理的真实细节的恢复,Wei等人[85]开发了一种用于真实图像的组件分而治之(CDC) SR模型更具体地说,在CDC中,首先通过三个组件关注块分别预测平面、边缘和角分量,然后将它们聚合在一起,生成基于学习到的组件关注地图的最终SR图像。为了实现这一目标,应用了一种梯度加权损失,使模型训练适应不同图像成分的重建困难。RealSR[84]和DRealSR[85]的研究结果证明了CDC[85]的优越性和泛化能力。给定一个包含原始图像和彩色图像的数据集,使用深度神经网络学习从LR原始图像到HR彩色图像的映射是一种直观的方法来利用原始图像进行sr。然而,一个原始图像可能对应一组彩色图像,因为它没有图像信号处理系统内的处理信息(例如,颜色校正),导致上述天真的方法不能很好地工作。

        为了解决这一问题,Xu等[90,91]设计了一种双分支CNN,该CNN联合利用LR原始数据和相应的LR彩色图像来恢复精细结构和高保真的色彩外观。除了上述几乎所有真实世界图像所共有的挑战之外,特定领域图像(例如文本图像、遥感图像和医学图像)的SR通常具有特殊性。因此,应该针对这些场景设计特定的SR模型。例如,Wang等人[88]开发的TSRN是一个真实场景文本图像的SR网络为了利用文本图像的强序列特征,在基本残差块中加入了双向LSTM (BLSTM)机制。为了解决真实感文本图像数据集TextZoom中的不对齐问题,TSRN[88]在网络前端引入了基于空间变换网络的中央对齐模块。此外,为了增强字符的形状边界,将梯度先验损失与𝑙2损失相结合来训练TSRN。结果表明,使用TSRN对真实文本图像进行识别,可以提高识别精度。可以预见的是,在某些情况下,SR也可以有利于其他计算机视觉任务,例如语义分割和目标检测。

基于域翻译的RSISR(Domain translation-based methods)

        如上节所述,很难获得具有良好对齐的LR-HR图像对的真实数据集。通常,在实际应用中,我们只有用于模型训练的LR图像。或者更好的情况是,除了LR训练图像之外,还有一组HR图像可供参考,但是LR和HR图像之间没有一一对应的关系。由于缺乏成对样本,监督方法不再适用于这些情况。已有研究[107-118]表明,域翻译是解决这一问题的可行方案。

        对于这种rissr方法,真实LR图像、合成LR图像(也称为干净LR图像或理想LR图像)和HR图像被认为处于不同的领域。因此,真实世界图像的SR转换为从真实世界LR图像域(RLRD)到HR图像域(HRD)的转换。总体而言,如图10所示,将RLRD交叉到HRD的主要方法有两种,即两阶段方法和单阶段方法,最显著的区别在于是否使用合成/清洁LR图像域(SLRD)作为中继站。

        大多数现有的SISR方法都是使用合成数据进行训练的,因此在干净的LR图像上取得了出色的性能。众所周知,SLRD和RLRD之间存在明显的域间隙,导致SR在真实图像上的精度下降。直观地说,可以通过减少域间隙来减轻这种性能下降,这就是基于两阶段域翻译的risr方法的工作方式。如图10所示,两阶段方法通常包括两个主要步骤,即域翻译和SR。通常在SR重建阶段采用通用的SR方法,以便从大规模数据集中学习到的SR模型中受益。

        Cycle-in-Cycle GAN (CinCGAN)就是这种rissr方法的代表。更具体地说,CinCGAN首先使用域翻译网络将RLRD中的真实LR图像映射到SLRD中,然后堆叠具有理想退化假设的预训练深度SR网络,将翻译结果升级到所需的大小。最后,对域转换和SR网络进行端到端微调。受CycleGAN[的启发,CinCGAN中的域翻译网络被训练成使用未配对的训练数据将真实LR输入映射到合成LR图像(即双立方下采样图像),这通常可以抑制真实LR图像中的噪声等伪影,使其更适合后续的SR网络。结果表明,使用非配对数据训练的CinCGAN与监督方法的SR性能相当。在MCinCGAN中,通过引入渐进式多周期框架进行大规模上采样和新的约束来抑制训练中的颜色波动,对CinCGAN进行了改进。为了更稳定的模型训练和更好的SR性能,Kim等人开发的DDGAN进一步结合了逐像素损失,VGG特征损失,以及SSIM特征损失来衡量相似度。同时,提出了一种同时考虑噪声、纹理和颜色的域鉴别器,使生成的图像更符合目标的域分布。Rad等人[RBSR]基于复制机制和双三次感知损失,将真实的LR图像转换为双三次相似图像。最近,Maeda等人PSUSR (Pseudo GAN)提出了端到端的可训练框架UISRPS,用于联合优化领域翻译网络和SR网络,在真实世界的人脸图像和航空图像上取得了出色的SR效果。得益于该架构,可以方便地将现有SR网络和逐像素损失函数集成到UISRPS中。

        与上述两阶段方法不同,基于单阶段域平移的risr框架旨在直接从现实世界的LR输入生成超分辨率图像,如图10所示。如何在没有真实的LR-HR图像对的情况下学习RLRD到HRD的翻译映射是关键问题。Prajapati等人提出训练一个基于gan的网络USISRNet来对真实世界的图像进行上采样由于只有未配对的LR和HR训练图像可用,USISRNet通过无监督学习进行优化。除了标准的GAN损耗外,还结合了像素级内容损失、TotalVariation损失和质量评估损失来优化USISRNet。内容损失使得SR结果与双三次上采样版本相差不远,从而保留了LR图像的主要内容。对总变差损失进行积分,以抑制噪声和伪影。为了获得更好的超分辨图像的感知质量,使用学习到的平均意见分数来构建质量评估损失。由于多重损失的叠加,USISRNet实现了良好的泛化能力。受CycleGAN[161]的启发,一些研究者提出使用循环一致性约束的gan来学习RLRD与HRD之间的直接关系[DNSR,GAN-CIRCLE]。如图12所示。具体来说,DNSR给定一个LR图像,训练LR-to-HR生成器(即RLRD到HRD)来重建一个生动的HR图像,该图像可以通过相应的HR-to-LR生成器(即HRD到RLRD)返回到LR输入。相反,HR-to- HR生成器应该从HR-to- lr生成器生成的下采样版本中很好地恢复HR图像。经过两个生成器和相应判别器的联合训练,LR-to-HR生成器对RLRD到HRD的直接映射进行建模,并用于从真实LR图像重建HR图像。

        考虑到从未配对的LR- HR数据中学习RLRD和HRD之间的端到端翻译具有挑战性,部分基于单阶段域翻译的risr方法也使用合成LR图像作为训练阶段的桥梁。对于未配对的真实LR和HR图像,Fritsche等[DSGAN(FSSR)]首先对HR图像进行双三次下采样。然后,使用基于gan的标准域转换网络,以无监督的方式对双立方下采样图像和真实LR图像进行训练,将双立方下采样结果转换为逼真域,使其遵循真实场景特征。将拟真实感LR图像和相应的HR图像作为训练样本对,以监督的方式训练ESRGAN进行上采样。为了生成与目标分布匹配良好的图像,采用基于频率分离的损失函数对域平移和SR网络进行了优化。 更具体地说,颜色损失、纹理损失和感知损失分别用于低频分量、高频分量和整个图像。请注意,在测试阶段只需要SR模型来升级真实世界的图像,因为它是在遵循真实世界图像分布的图像对上进行训练的。在此基础上,最近Umer等[SRResCGAN根据真实图像观测模型改进了基于gan的SR模型,从而同时利用了强大的正则化和优化技术。与上述文献使用单一方向域平移模型不同,Lugmayr等[ULSR]和Chen等[ISPUSR]提出使用循环一致性约束训练双向域平移模型以获得更好的鲁棒性。

        总的来说,域翻译是缩小合成数据与真实数据之间领域差距的有效方法,从而在一定程度上提高了SR模型对不断变化的真实图像的泛化能力。相比之下,基于两阶段域翻译的risr方法可以更优雅地集成合成数据训练的SR模型,而单阶段方法通常在测试阶段具有较低的复杂性。

        

基于自学习的RSISR

        大多数现有的RSISR方法使用外部数据集(即成对或非成对训练数据)来训练SR模型。因此,SR性能与测试数据和训练数据之间的一致性密切相关。然而,现实世界的图像并不总是符合训练数据的特征。同时,在某些情况下,模型训练的外部数据集可能不可用。为了减少对外部信息的依赖,减少测试-训练差异对SR性能的影响,研究人员提出利用LR输入的内部信息学习图像特异性SR模型,如图14所示。

        自监督图像SR方法ZSSR基于信息的跨尺度内递归性,这是自然图像的共同属性。更具体地说,如图15所示,使用从LR测试图像及其降级版本中提取的示例对,训练一个八层CNN来模拟测试阶段特定于图像的LR-HR关系。

        考虑到训练数据的不足(仅为测试图像),在提取图像特定的LR-HR对时采用了数据增强。由于ZSSR能够适应不同的测试图像,因此对于退化过程不理想且未知的真实图像,ZSSR具有优异的SR性能。再次基于跨尺度递归性,Bell-Kligler等[提出训练一个特定于图像的GAN (KernelGAN)来模拟输入的退化过程(即模糊核)因此,将模糊核估计模块KernelGAN插入重构模块ZSSR中,就可以实现一个完全自监督的图像特异性risr框架。为了联合训练图像特定的退化和SR网络,Kim等人设计了一个统一的基于内部学习的SR框架DBPI,由SR网络和降尺度网络组成在DBPI的自监督训练阶段,如图16所示,对SR网络进行优化,从降尺度网络产生的降尺度版本重构LR输入图像。同时,训练降尺度网络从SR网络生成的超分辨率版本中恢复LR输入图像。类似地,Emad等人提出了DualSR,它联合优化了图像特定的下采样器和相应的上采样器更具体地说,DualSR是用周期一致性损失、掩码插值损失和使用测试图像中的补丁的对抗性损失进行训练的。[DBPI,DualSR]的结果表明,图像特定退化和SR网络的互补训练有利于重建性能。

        尽管基于自学习的RSISR方法,如ZSSR、KernelGAN和DBPI可以很容易地适应LR输入图像,但由于采用自监督训练策略,它们通常存在两个主要缺点。首先,SR模型的优化只利用了LR输入的内部信息,而忽略了大量的外部信息。其次,由于在线训练,这些方法在测试阶段通常很耗时。为了克服这些缺点,元学习被引入到最近基于自我学习的SR方法中。Soh等[MZSR]在ZSSR的基础上提出了零射法SR的元迁移学习(MZSR),其中包括三个步骤,即大规模训练、元迁移学习和元测试为了简化SR网络的训练和元学习,大规模训练步骤首先在大规模数据集DIV2K上训练一个像素级𝑙1损失的8层SR网络。元迁移学习过程的目的是在模型不可知元学习(model - agnostic Meta-Learning)之后,找到一个通用的内部学习起始点,使模型在几次梯度更新内迅速适应新的图像条件。在元测试阶段,首先对输入的测试图像进行降级以生成用于模型参数更新的示例对,然后将其馈送到更新的模型中以生成SR结果。作为元迁移学习策略的结果,MZSR在超分辨率图像的质量和运行时间方面都取得了具有竞争力的表现。在MLSR中,Park等人还提出在不改变原有架构的情况下,使用元学习策略提高SOTA SR网络(如RCAN)的性能总体而言,基于元学习的SR方法在重建质量、泛化能力和处理效率方面具有优势。

        综上所述,以上四种不同的risr解决方案各有特点,因此有必要根据应用需求来权衡其优缺点。更具体地说,特定于图像的退化建模有助于提高重建性能,但代价是降低复杂性。利用在真实场景中捕获的图像对,可以直接训练有效的SR模型。然而,获得良好对齐的图像对通常是具有挑战性的。此外,在特定数据集上优化的SR模型泛化能力有限。与基于图像对的方法相比,基于领域翻译的方法由于不需要成对图像进行模型训练而更加灵活,但仍然存在泛化问题。基于自学习的rissr算法适用范围更广,只需要LR观测,但在线训练过程通常会花费一些时间。同时,它们大多只依赖于内部信息,缺乏结构和模式的丰富性。从应用程序的角度来看,基于图像对和基于域翻译的方法更适合于获得大量HR和LR图像用于SR模型训练的场景,而基于退化建模和基于自学习的方法更适用于先验知识有限的LR观测

  • 12
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水水水淼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值