Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
基于生成对抗网络的
照片级真实感的单一图像超分辨率重建

  

 论文的主要贡献

    主要贡献是一个全新的损失函数,能使训练的网络从大幅降低采样率的低分辨率图像中还原出逼真的图像质感和细节。

 主要方法

 定义的新的感知损失函数可以分为两部分:对抗损失和内容损失。对抗损失鼓励重建的高分辨率看起来像真实的图像(看起来和原图无差),内容损失确保重建的图像与原本的低分辨率图像有相似的高层特征内容。

 发生器生成通过最佳鉴别器学习都无法区分与自然图像的图像,而鉴别器网络则是训练来区分自然和重建生成的高分辨率图像。

 对抗网络简述

 有两个模型,一个是生成模型(generative model),一个是判别模型(discriminative model)。判别模型的任务是判断给定的图像看起来是自然的还是人为伪造的(图像来源于数据集)。生成模型的任务是生成看起来自然真实的、和原始数据相似的图像。这可以看做一种零和或两个玩家的纸牌游戏。有个类比是生成模型像“一个造假团伙,试图生产和使用假币”,而判别模型像“检测假币的警察”。生成器(generator)试图欺骗判别器(discriminator),判别器则努力不被生成器欺骗。模型经过交替优化训练,两种模型都能得到提升,直到到达一个“假冒产品和真实产品无法区分”的点。

 学习的过程可以看做是我们要得到一个模型(例如CNN),使得它在一个输入数据X上得到的输出结果Y_p尽可能与真实的结果Y(金标准)一致。在这个过程中使用一个鉴别器(discriminator),它可以识别出一个结果y到底是来自模型的预测值还是来自真实的结果。如果这个鉴别器的水平很高,而它又把Y_pY搞混了,无法分清它们之间的区别,那么就说明我们需要的模型具有很好的表达或者预测能力。

 对于超分辨率重建,它采用下采样图像(更少细节),生成器试图将它们似然为更自然的图像。

 论文摘要

 尽管使用更快更深的卷积神经网络的单图像超分辨率准确性和速度有所突破,很大程度上仍然存在一个中心问题未解决:我们如何恢复更细的纹理细节当我们使用large upscaling factors?在图像下采样信息丢失的情况下,在大量可能的解决方案下超分辨率成为高度不良的逆向问题。因此,基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差(MSE)。所得到的估计具有高峰值信噪比(PSNR),但它们通常过于平滑,缺乏高频细节,使得它们在感觉上不令人满意。在本文中,我们提出了超分辨率生成对抗网络(SRGAN)。据我们所知,它是第一个能够从下采样恢复照片逼真的自然图像的框架。为了达到这一目的,我们提出一种知觉损失函数,包括对抗性损失和内容损失。对抗性损失将我们的解决方案变成使用经过训练以区分生成的超分辨率图像和原始照片真实图像的鉴别网络的自然图像流形。此外,我们使用由感知相似性驱动的内容丢失函数,而不是像素级别空间中的相似性。使用感知损失功能训练在350K图像上,我们的深层残差网络能够在public benchmarks从大量下采样图像中恢复逼真的纹理。

  论文介绍

 估计 HR图像时的一个主要困难是解决未确定的SR问题的模糊性。SR问题的不合理性质对于高采样因子而言尤为明显,其中重建的SR图像中的纹理细节通常不存在。 必须对数据做出假设以近似HR图像,例如利用图像冗余或采用特别训练的特征模型。
 在过去几十年里,在图像SR中,基于插值的早期方法,简单图像特征(例如边缘)或统计图像先验,已经取得了显著的进步。后来的基于示例的方法非常成功地检测和利用训练数据库内的图像块对应关系或计算的允许高细节数据表示的优化字典。虽然精度很高,但涉及的优化程序计算量大。更先进的方法将基于图像的SR作为可以解决的回归问题,例如随机森林。最近兴起的卷积神经网络(CNN)也对图像SR产生了重大影响,不仅提高了精度方面的现状,而且提高了计算速度,使2D视频帧的实时SR成为可能。
  监督SR算法的优化目标通常是恢复HR图像与真实图片之间的均方误差(MSE)的最小化。 这是方便的,因为MSE最小化也使峰值信噪比(PSNR)最大化,这是用于评估和比较SR算法的常用度量。 然而,MSE(PSNR)捕获感知上相关差异(例如高纹理细节)的能力非常有限,因为它们基于像素级别的图像差异来定义。
  超分辨率图像和原始图像之间的感知差异意味着超分辨率图像不是像Ferwerda定义的照片逼真。包括[44,60,57]在内的真实图像超分辨率技术已重点关注通过使用细节合成,多尺度字典或结构感知损失函数来最小化感知差异。
  我们提出一个超分辨率生成对抗网络,以挖掘深层残差网络和不同于MSE的唯一的优化目标函数。不同于以往工作,我们定义了一个使用VGG网络映射的高层特征以及鉴别器的感知损失函数。

 原理详解之损失函数

 目标函数:

 

 优化特定的损失函数LsR

 传统的方法一般处理的是较小的放大倍数,当图像的放大倍数在4以上时,很容易使得到的结果显得过于平滑,而缺少一些细节上的真实感。这是因为传统的方法使用的代价函数一般是最小均方差(MSE),即

    该代价函数使重建结果有较高的信噪比,但是缺少了高频信息,出现过度平滑的纹理。该文章中的方法提出的方法称为SRGAN, 它认为,应当使重建的高分辨率图像与真实的高分辨率图像无论是低层次的像素值上,还是高层次的抽象特征上,和整体概念和风格上,都应当接近。整体概念和风格如何来评估呢?可以使用一个判别器,判断一副高分辨率图像是由算法生成的还是真实的。如果一个判别器无法区分出来,那么由算法生成的图像就达到了以假乱真的效果。

  因此,该文章将代价函数改进为

  第一部分是基于内容的代价函数,第二部分是基于对抗学习的代价函数。基于内容的代价函数除了上述像素空间的最小均方差L_{MSE}^{SR}以外,又包含了一个基于特征空间的最小均方差,该特征是利用VGG网络提取的图像高层次特征是新合成图像(即网络的输出)的特征地图(在训练前的VGG网络中)GθG(ILR)和真实高分辨率训练图像IHR间特征的欧氏距离损失(Euclidean distance loss),主要的目标是确保两个图像的内容在放入训练对抗网络前,各自的特征看起来相似

    对抗学习的代价函数是基于判别器输出的概率,它鼓励和原始数据的负对数似然分布相似的输出

 其中D_{\theta G}()是一个图像属于真实的高分辨率图像的概率。G_{\theta G}(I^{LR})是重建的高分辨率图像

   原理详解之网络结构

 

   从给定的一张图像的高分辨率版本和低分辨率版本开始。我们想训练生成器以让它能把输入的低分辨率图像,输出尽可能高分辨率的图像。输出的被称为超解析图像。然后判别器会被训练来分辨这些图像。生成器的网络架构使用一组包含ReLUsBatchNormconv层的B残块。当低分辨率图像经过这些块,两个deconv层能让它增大分辨率。再看判别器,我们有8个卷积层能引入S激活函数,输出图像真实(高解析)还是人造(超解析)可能性。

 参考内容

 https://zhuanlan.zhihu.com/p/25201511
    http://www.sohu.com/a/115454516_473283


Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值