Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

本文提出了一种名为SRGAN的生成对抗网络,用于解决图像超分辨率问题,尤其是在4倍放大因子下恢复细腻的纹理细节。SRGAN引入了感知损失函数,包括对抗损失和内容损失,通过对抗网络结构来提高图像的感官质量。实验结果显示,SRGAN在视觉质量上显著优于其他先进方法,并且在MOS测试中得分更接近原始高分辨率图像。
摘要由CSDN通过智能技术生成

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016.


Abstract

尽管采用更快更深的卷积神经网络的单幅图像超分辨率的准确性和速度 有了突破,一个核心问题仍然尚未解决:当在大的放大因子下的超分辨时我们如何恢复细小的纹理细节?基于最优化的超分辨率方法主要由目标函数的选择所影响.最近的工作主要集中在最小化均方重构误差.结果评价有较高的峰值信噪比,但是他们往往缺乏高频细节和感官满意度,无法达到超分辨率的预期逼真度.在本文中,我们提出SRGAN,一个为image super-resolution(SR)的generative adversarial network (GAN).据我们所知,这是第一个能够推导出 4*放大因子 的实感自然图像.为了实现这一目标,我们提出一个感知损失函数,它包含了一个adversarial loss(对抗损失)和一个content loss(),对抗损失用一个判别网络将我们的方案推向自然图像manifold(复印本,流形?),判别网络被训练来区分超分辨率图像和原始图像.此外,由于perceptual similarity感知相似而不是像素空间中的 similarity类似,我们使用一个content loss.我们的深度残差网络可以从严重下采样图像中恢复实感图像纹理.扩展平均意见得分(MOS)测试显示使用SRGAN在视觉质量上有显著的提升.用SRGAN获得的MOS得分比那些用其他的先进方法相比,更接近原始高分辨率图像的得分.

Introduction

由低分辨率(LR)图像预测它的高分辨率(HR)图像这一高难度任务被称为超分辨率super-resolution(SR).AR获得了来自计算机视觉研究界的大量关注并有广泛的应用.
这里写图片描述
超分辨率问题的病态求逆过程尤其表现在较高的放大因子上,以至重构的超分辨率图像的纹理细节通常缺失.有监督的超分辨率算法的优化目标通常是最小化恢复的高分辨率图像和实物图像的 均方误差(MSE),最小化MSE时最大化峰值信噪比很方便,这是一种常用的用来评价和比较SR算法的方法.然而,MSE和PSNR捕获感知相关差异的能力是极有限的,因为他们是定义在像素级的图像差异上的.如图2所示,最高的PSNR值并不一定对应感知效果更好的超分辨率结果.

这里写图片描述
从左到右:(双三次)立方体插值,优化MSE的深度残差网络,深度残差生成对抗网络优化人类感知更为敏感的损失,原始高分辨率图像.对应的PSNR和SSIM(结构相似性)值在括号中显示.

超分辨率和原始图像之间的感知差异意味着恢复图像并不是Ferwerda定义的photo-realistic(实感图像) .

在此工作中,我们提出一个超分辨率生成对抗网络SRGAN,在SRGAN中我们试用一个带skip-connection(跳跃连接?)和diverge from MSE(偏离MSE?)的深度残差网络作为唯一的优化目标..与之前工作不同的是,我们用VGG网络的高层特征图定义了一个新的与分类器结合的perceptual loss(感知损失),它可以促使方案很难区分出高分辨率参考图像.一个超分辨率实感图像样例如图1所示.

1.相关工作

图像超分辨率

最新的关于图像超分辨率的综述文章包括Nasrollahiand Moeslund or Yang et al. .这里我们关注单幅图像超分辨率 single image super-resolution (SISR),对从多幅图像中恢复高分辨率图像方法不作更深的讨论.
处理SISR传统的是基于预测的方法.然而这些滤波方法的速度很快,比如线性,立方体或Lanczos滤波器,他们简化SISR问题并通常生成有极度光滑的纹理的解决方案.着重关注边界保护的方法被提了出来.
更强大的方法旨在建立低分辨率和高分辨率图像信息间的复杂的mapping映射,并通常依赖于训练数据.许多基于样本对的方法依赖于低分辨率training patches训练块,因为对应的高分辨率 counterparts(副本?)未知.
早期的工作是由Freeman等人提出的,SR问题的相关方法起源于压缩知,Glasner等人利用图像内的patch redundancies across scales 来驱动SR.这种自相似的范例也应用在黄等人的工作中,考虑到微小转变和形状的变化,self dictinaries 做了进一步扩展.Gu等人提出一种卷积稀疏编码的方法,通过处理整幅图像而不是overlapping patches提升了一致性.
为了重建逼真的纹理细节同时避免边缘效应,Tai等人结合了基于梯度轮廓优先的边缘传播SR算法和基于学习的细节合成的益处.zhang等人提出一种 multi-scale dictionary(多尺度字典)来捕获在不同尺度上的相似图像块的冗余,yue等人从网上检索带相似内容的有相关性的高分辨率图像,提出一种structure-aware matching criterion(结构感知匹配准则).

领域嵌入法通过在低维流行中寻找相似的低分辨率训练块来上采样一个低分辨率图像块并结合他们相应的高分辨率块来重建.在 Kim and Kwon的文章中强调领域方法趋向过拟合并利用kernel ridge regression制定了一个样本对更通用的map.回归问题可以用高斯过程回归,树,或随机森林解决.在Dai等人文中,学习了大量 patch-specific regressors回归元,测试中选择了最适用的回归元.
最近基于超分辨率算法的卷积神经网络展现出优异的性能.在王等人文章中,将一个稀疏表示优先编码进基于学习迭代收缩和阈值算法(LISTA)的前馈网络结构中.Dong等人用双立方插值来upscale输入图像并训练一个三层首尾相连的深度全卷积网络以获得最新的超分辨率性能.后来表明,使网络直接学习放大过滤器可以促进增强精度和速度两项性能.Kim等人利用深度地柜卷积网络(DRCN)提出一种高性能架构,允许远程像素依赖同时保持少量的模型参数.与我们文章特别相关的是Tohnson 和 Bruna等人的工作,他们依靠一个更接近感知相似性的损失函数来形象地恢复更有说服力的高分辨率图像.

卷积神网络设计

随着Krizhevsky等人工作的成功,许多计算机视觉的最新问题通过特殊设计的CNN结构受到重视.
结果表明,网络结构越深越难训练,但有极大增强网络精确性的潜力,因为他们允许建复杂性很高的映射.为了有效得训练这些深度网络结构,批处理归一化通常用来抵消内部internal covariate shift(协变量变化).更深层次的网络结构也显示出可

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值