Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016.
Abstract
尽管采用更快更深的卷积神经网络的单幅图像超分辨率的准确性和速度 有了突破,一个核心问题仍然尚未解决:当在大的放大因子下的超分辨时我们如何恢复细小的纹理细节?基于最优化的超分辨率方法主要由目标函数的选择所影响.最近的工作主要集中在最小化均方重构误差.结果评价有较高的峰值信噪比,但是他们往往缺乏高频细节和感官满意度,无法达到超分辨率的预期逼真度.在本文中,我们提出SRGAN,一个为image super-resolution(SR)的generative adversarial network (GAN).据我们所知,这是第一个能够推导出 4*放大因子 的实感自然图像.为了实现这一目标,我们提出一个感知损失函数,它包含了一个adversarial loss(对抗损失)和一个content loss(),对抗损失用一个判别网络将我们的方案推向自然图像manifold(复印本,流形?),判别网络被训练来区分超分辨率图像和原始图像.此外,由于perceptual similarity感知相似而不是像素空间中的 similarity类似,我们使用一个content loss.我们的深度残差网络可以从严重下采样图像中恢复实感图像纹理.扩展平均意见得分(MOS)测试显示使用SRGAN在视觉质量上有显著的提升.用SRGAN获得的MOS得分比那些用其他的先进方法相比,更接近原始高分辨率图像的得分.
Introduction
由低分辨率(LR)图像预测它的高分辨率(HR)图像这一高难度任务被称为超分辨率super-resolution(SR).AR获得了来自计算机视觉研究界的大量关注并有广泛的应用.
超分辨率问题的病态求逆过程尤其表现在较高的放大因子上,以至重构的超分辨率图像的纹理细节通常缺失.有监督的超分辨率算法的优化目标通常是最小化恢复的高分辨率图像和实物图像的 均方误差(MSE),最小化MSE时最大化峰值信噪比很方便,这是一种常用的用来评价和比较SR算法的方法.然而,MSE和PSNR捕获感知相关差异的能力是极有限的,因为他们是定义在像素级的图像差异上的.如图2所示,最高的PSNR值并不一定对应感知效果更好的超分辨率结果.
从左到右:(双三次)立方体插值,优化MSE的深度残差网络,深度残差生成对抗网络优化人类感知更为敏感的损失,原始高分辨率图像.对应的PSNR和SSIM(结构相似性)值在括号中显示.
超分辨率和原始图像之间的感知差异意味着恢复图像并不是Ferwerda定义的photo-realistic(实感图像) .
在此工作中,我们提出一个超分辨率生成对抗网络SRGAN,在SRGAN中我们试用一个带skip-connection(跳跃连接?)和diverge from MSE(偏离MSE?)的深度残差网络作为唯一的优化目标..与之前工作不同的是,我们用VGG网络的高层特征图定义了一个新的与分类器结合的perceptual loss(感知损失),它可以促使方案很难区分出高分辨率参考图像.一个超分辨率实感图像样例如图1所示.
1.相关工作
图像超分辨率
最新的关于图像超分辨率的综述文章包括Nasrollahiand Moeslund or Yang et al. .这里我们关注单幅图像超分辨率 single image super-resolution (SISR),对从多幅图像中恢复高分辨率图像方法不作更深的讨论.
处理SISR传统的是基于预测的方法.然而这些滤波方法的速度很快,比如线性,立方体或Lanczos滤波器,他们简化SISR问题并通常生成有极度光滑的纹理的解决方案.着重关注边界保护的方法被提了出来.
更强大的方法旨在建立低分辨率和高分辨率图像信息间的复杂的mapping映射,并通常依赖于训练数据.许多基于样本对的方法依赖于低分辨率training patches训练块,因为对应的高分辨率 counterparts(副本?)未知.
早期的工作是由Freeman等人提出的,SR问题的相关方法起源于压缩知,Glasner等人利用图像内的patch redundancies across scales 来驱动SR.这种自相似的范例也应用在黄等人的工作中,考虑到微小转变和形状的变化,self dictinaries 做了进一步扩展.Gu等人提出一种卷积稀疏编码的方法,通过处理整幅图像而不是overlapping patches提升了一致性.
为了重建逼真的纹理细节同时避免边缘效应,Tai等人结合了基于梯度轮廓优先的边缘传播SR算法和基于学习的细节合成的益处.zhang等人提出一种 multi-scale dictionary(多尺度字典)来捕获在不同尺度上的相似图像块的冗余,yue等人从网上检索带相似内容的有相关性的高分辨率图像,提出一种structure-aware matching criterion(结构感知匹配准则).
领域嵌入法通过在低维流行中寻找相似的低分辨率训练块来上采样一个低分辨率图像块并结合他们相应的高分辨率块来重建.在 Kim and Kwon的文章中强调领域方法趋向过拟合并利用kernel ridge regression制定了一个样本对更通用的map.回归问题可以用高斯过程回归,树,或随机森林解决.在Dai等人文中,学习了大量 patch-specific regressors回归元,测试中选择了最适用的回归元.
最近基于超分辨率算法的卷积神经网络展现出优异的性能.在王等人文章中,将一个稀疏表示优先编码进基于学习迭代收缩和阈值算法(LISTA)的前馈网络结构中.Dong等人用双立方插值来upscale输入图像并训练一个三层首尾相连的深度全卷积网络以获得最新的超分辨率性能.后来表明,使网络直接学习放大过滤器可以促进增强精度和速度两项性能.Kim等人利用深度地柜卷积网络(DRCN)提出一种高性能架构,允许远程像素依赖同时保持少量的模型参数.与我们文章特别相关的是Tohnson 和 Bruna等人的工作,他们依靠一个更接近感知相似性的损失函数来形象地恢复更有说服力的高分辨率图像.
卷积神网络设计
随着Krizhevsky等人工作的成功,许多计算机视觉的最新问题通过特殊设计的CNN结构受到重视.
结果表明,网络结构越深越难训练,但有极大增强网络精确性的潜力,因为他们允许建复杂性很高的映射.为了有效得训练这些深度网络结构,批处理归一化通常用来抵消内部internal covariate shift(协变量变化).更深层次的网络结构也显示出可