Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
基于生成对抗网络的照片级真实感的单一图像超分辨率重建
论文的主要贡献
主要方法
定义的新的感知损失函数可以分为两部分:对抗损失和内容损失。对抗损失鼓励重建的高分辨率看起来像真实的图像(看起来和原图无差),内容损失确保重建的图像与原本的低分辨率图像有相似的高层特征内容。
发生器生成通过最佳鉴别器学习都无法区分与自然图像的图像,而鉴别器网络则是训练来区分自然和重建生成的高分辨率图像。
对抗网络简述
有两个模型,一个是生成模型(generative model),一个是判别模型(discriminative model)。判别模型的任务是判断给定的图像看起来是自然的还是人为伪造的(图像来源于数据集)。生成模型的任务是生成看起来自然真实的、和原始数据相似的图像。这可以看做一种零和或两个玩家的纸牌游戏。有个类比是生成模型像“一个造假团伙,试图生产和使用假币”,而判别模型像“检测假币的警察”。生成器(generator)试图欺骗判别器(discriminator),判别器则努力不被生成器欺骗。模型经过交替优化训练,两种模型都能得到提升,直到到达一个“假冒产品和真实产品无法区分”的点。
学习的过程可以看做是我们要得到一个模型(例如CNN),使得它在一个输入数据X上得到的输出结果尽可能与真实的结果Y(金标准)一致。在这个过程中使用一个鉴别器(discriminator),它可以识别出一个结果到底是来自模型的预测值还是来自真实的结果。如果这个鉴别器的水平很高,而它又把和Y搞混了,无法分清它们之间的区别,那么就说明我们需要的模型具有很好的表达或者预测能力。
对于超分辨率重建,它采用下采样图像(更少细节),生成器试图将它们似然为更自然的图像。
论文摘要
尽管使用更快更深的卷积神经网络的单图像超分辨率准确性和速度有所突破,很大程度上仍然存在一个中心问题未解决:我们如何恢复更细的纹理细节当我们使用large upscaling factors?在图像下采样信息丢失的情况下,在大量可能的解决方案下超分辨率成为高度不良的逆向问题。因此,基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差(MSE)。所得到的估计具有高峰值信噪比(PSNR),但它们通常过于平滑,缺乏高频细节,使得它们在感觉上不令人满意。在本文中,我们提出了超分辨率生成对抗网络(SRGAN)。据我们所知,它是第一个能够从4×下采样恢复照片逼真的自然图像的框架。为了达到这一目的,我们提出一种知觉损失函数,包括对抗性损失和内容损失。对抗性损失将我们的解决方案变成使用经过训练以区分生成的超分辨率图像和原始照片真实图像的鉴别网络的自然图像流形。此外,我们使用由感知相似性驱动的内容丢失函数,而不是像素级别空间中的相似性。使用感知损失功能训练在350K图像上,我们的深层残差网络能够在public benchmarks从大量下采样图像中恢复逼真的纹理。
论文介绍
原理详解之损失函数
目标函数:
优化特定的损失函数LsR
传统的方法一般处理的是较小的放大倍数,当图像的放大倍数在4以上时,很容易使得到的结果显得过于平滑,而缺少一些细节上的真实感。这是因为传统的方法使用的代价函数一般是最小均方差(MSE),即
该代价函数使重建结果有较高的信噪比,但是缺少了高频信息,出现过度平滑的纹理。该文章中的方法提出的方法称为SRGAN, 它认为,应当使重建的高分辨率图像与真实的高分辨率图像无论是低层次的像素值上,还是高层次的抽象特征上,和整体概念和风格上,都应当接近。整体概念和风格如何来评估呢?可以使用一个判别器,判断一副高分辨率图像是由算法生成的还是真实的。如果一个判别器无法区分出来,那么由算法生成的图像就达到了以假乱真的效果。
因此,该文章将代价函数改进为
第一部分是基于内容的代价函数,第二部分是基于对抗学习的代价函数。基于内容的代价函数除了上述像素空间的最小均方差以外,又包含了一个基于特征空间的最小均方差,该特征是利用VGG网络提取的图像高层次特征,是新合成图像(即网络的输出)的特征地图(在训练前的VGG网络中)GθG(ILR)和真实高分辨率训练图像IHR间特征的欧氏距离损失(Euclidean distance loss),主要的目标是确保两个图像的内容在放入训练对抗网络前,各自的特征看起来相似:
对抗学习的代价函数是基于判别器输出的概率,它鼓励和原始数据的负对数似然分布相似的输出:其中是一个图像属于真实的高分辨率图像的概率。是重建的高分辨率图像。