全文翻译:Deep Learning for Image Super-resolution: A Survey

综述用于图像超分辨率的深度学习

作者:Zhihao Wang, Jian Chen, Steven C.H. Hoi, Fellow, IEEE
论文地址:https://arxiv.org/abs/1902.06068

摘要

  图像超分辨率(SR)是一类重要的图像处理技术,可提高计算机视觉中图像和视频的分辨率。 近年来,目睹了使用深度学习技术的图像超分辨率的显着进步。 本文旨在针对使用深度学习方法的图像超分辨率的最新进展提供全面的调查。 通常,我们可以将现有的SR技术研究大致分为三大类:监督SR,无监督SR和领域特定SR。 此外,我们还涵盖了其他一些重要问题,例如公开可用的基准数据集和性能评估指标。 最后,我们通过重点介绍未来的一些方向和未解决的问题来结束本调查,社区应在将来进一步解决这些问题。

1. 介绍

  图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中一类重要的图像处理技术。 它享有广泛的实际应用,例如医学成像[1],[2],[3],监视和安全[4],[5]。 除了改善图像感知质量外,它还有助于改善其他计算机视觉任务[6],[7],[8],[9]。 通常,此问题非常具有挑战性,并且固有地存在不适,因为始终有多个HR图像对应于单个LR图像。 在文献中,已经提出了多种经典的SR方法,包括基于预测的方法[10],[11],[12],基于边缘的方法[13],[14],统计方法[15],[16 ],基于补丁的方法[13],[17],[18],[19]和稀疏表示方法[20],[21]等。

  近年来,随着深度学习技术的飞速发展,基于深度学习的SR模型已得到积极探索,并经常在SR的各种基准上达到最先进的性能。 从基于早期卷积神经网络(CNN)的方法(例如SRCNN [22],[23])到最近使用生成对抗网络(GAN)的有前途的SR方法,各种各样的深度学习方法已应用于解决SR任务 [24](例如SRGAN [25])。 通常,使用深度学习技术的SR算法系列在以下主要方面彼此不同:不同类型的网络体系结构[26],[27],[28],不同类型的损失函数[8],[29] ],[30],不同类型的学习原则和策略[8],[31],[32]等。

  在本文中,我们对深度学习中图像超分辨率的最新进展进行了全面概述。 尽管文献中已有一些现有的SR调查,但我们的工作有所不同,我们专注于基于深度学习的SR技术,而大多数早期的研究[33],[34],[35],[36]旨在调查传统 SR算法或一些研究主要集中在基于全参考指标或人类视觉感知的定量评估上[37],[38]。 与现有调查不同,该调查采用了基于深度学习的独特观点,以系统,全面的方式回顾了SR技术的最新进展。

  该调查的主要贡献有三方面:

  1)我们对基于深度学习的图像超分辨率技术进行了全面的回顾,包括问题设置,基准数据集,性能指标,具有深度学习的SR方法系列,特定领域SR应用程序等。

  2)我们以分层和结构方式对基于深度学习的SR技术的最新进展进行了系统的概述,并总结了有效SR解决方案的每个组件的优点和局限性。

  3)我们讨论挑战和未解决的问题,并确定新趋势和未来方向,以为社区提供有见地的指导。

  在以下各节中,我们将介绍深度学习中图像超分辨率的最新进展的各个方面。 图1以分层结构的方式显示了本次调查要涵盖的图像SR的分类法。 第2节给出了问题的定义,并回顾了主流数据集和评估指标。 第三部分模块化地分析了监督SR的主要组成部分。 第4节简要介绍了无监督SR方法。 第5节介绍一些流行的特定于域的SR应用程序,第6节讨论未来的方向和未解决的问题。
图1

图1:此综述的层次结构分类法。

2. 问题设置和术语

2.1. 问题定义

  图像超分辨率旨在从LR图像中恢复相应的HR图像。 通常,LR图像 I x I_x Ix被建模为以下退化的输出:
公式1
其中D表示降级映射函数, I y I_y Iy是相应的HR图像,而δ是降级过程的参数(例如缩放因子或噪声)。 通常,降级过程(即D和δ)是未知的,仅提供LR图像。 在这种情况下,也称为盲态SR,要求研究人员从LR图像 I x I_x Ix中恢复地面真实HR图像 I y I_y Iy的HR近似值 I y I_y Iy,如下所示:
公式2
其中F是超分辨率模型,θ表示F的参数。

  尽管降级过程未知,并且可能受多种因素影响(例如压缩伪影,各向异性降级,传感器噪声和斑点噪声),但研究人员正在尝试对降级映射进行建模。 大多数工作将降级建模为单个下采样操作,如下所示:
公式3
其中 ↓ s ↓_s s是使用比例因子s的下采样操作。 实际上,大多数通用SR的数据集都是基于此模式构建的,最常用的下采样操作是具有抗锯齿的双三次插值。 但是,还有其他工作[39]将退化建模为几种操作的组合:
公式4
其中 I y ⊗ κ I_y⊗κ Iyκ代表模糊核κ与HR图像 I y I_y Iy之间的卷积,而 n ς n_ς nς是具有标准偏差ς的一些加性高斯白噪声。 与方程式3的原始定义相比,方程式4的组合降级模式更接近于实际情况,并已被证明对SR更有益[39]。

  为此,SR的目标如下:
公式5
其中 L ( I y ^ , I y ) L(\hat{I_y},I_y) L(Iy^Iy)代表生成的HR图像 I y ^ \hat{I_y} Iy^和地面真实图像 I y I_y Iy之间的损失函数,Φ(θ)是正则项,而λ是权衡参数。 尽管SR最受欢迎的损失函数是逐像素均方误差(即像素损失),但功能更强大的模型倾向于使用多个损失函数的组合,这将在第3.4.1节中介绍。

2.2. 超分辨率数据集

  如今,有许多可用于图像超分辨率的数据集,它们在图像数量,质量,分辨率和多样性等方面有很大差异。其中一些提供LR-HR图像对,而另一些仅提供HR图像。 通常通过在MATLAB中使用默认设置的imresize函数获得LR图像(即带抗锯齿的双三次插值)。 在表1中,我们列出了SR社区常用的许多图像数据集,并具体说明了它们的HR图像数量,平均分辨率,平均像素数,图像格式和类别关键字。
表1
  除了这些数据集,一些广泛用于其他视觉任务的数据集也用于SR,例如ImageNet [51],MS-COCO [52],VOC2012 [53],CelebA [54]。 此外,结合多个数据集进行训练也很流行,例如结合T91和BSDS300 [26],[27],[55],[56],结合DIV2K和Flickr2K [31],[57]。

2.3. 图像质量评估

  图像质量是指图像的视觉属性,并着重于查看者的感知评估。 通常,图像质量评估(IQA)方法包括基于人类感知的主观方法(即图像的真实感)和客观计算方法。 前者更符合我们的需求,但通常既耗时又昂贵,因此后者目前是主流。 但是,这些方法不一定相互之间是一致的,因为客观方法通常无法非常准确地捕获人类的视觉感知,这可能导致IQA结果存在较大差异[25],[58]。

  另外,客观IQA方法又分为三种类型[58]:使用参考图像进行评估的全参考方法,基于提取特征比较的简化参考方法以及不使用任何参考图像的无参考方法(即盲IQA)。 接下来,我们将介绍几种最常用的IQA方法,涵盖主观方法和客观方法。

2.3.1. 峰值信噪比

  峰值信噪比(PSNR)是有损变换(例如图像压缩,图像修复)最受欢迎的重建质量度量之一。 对于图像超分辨率,通过最大像素值(表示为L)和图像之间的均方误差(MSE)定义PSNR。 给定具有N个像素的地面真实图像 I I I和重建图像 I ^ \hat{I} I^ I I I I ^ \hat{I} I^之间的PSNR定义如下:
公式6
其中L等于255(在一般情况下使用8位表示形式)。 由于PSNR仅与像素级MSE有关,因此仅关注相应像素之间的差异而不是视觉感知,因此在表示真实场景中的重建质量时,通常会导致性能下降,而我们通常更关注人类知觉。 但是,由于与文献著作进行比较的必要性,并且缺乏完全准确的感知指标,因此PSNR仍然是目前最广泛用于SR模型的评估标准。

2.3.2 结构相似性

  考虑到人类视觉系统(HVS)非常适合提取图像结构[59],基于亮度,对比度和结构方面的独立比较,提出了结构相似性指标(SSIM)[58]用于测量图像之间的结构相似性。对于具有N个像素的图像I,亮度 µ I µ_I µI和对比度 σ I σ_I σI分别估计为图像强度的平均值和标准偏差,即 µ I = 1 N ∑ i = 1 N I ( i ) µ_I=\frac{1}{N}\sum_{i=1}^N I(i) µI=N1i=1

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值