Real-world Super-Resolution via Kernel Estimation and Noise Injection

在这里插入图片描述
该文是2020 CVPR的一篇文章,并在NTIRE 2020 Challenge Real-World Super-Resolution赛道上获胜。
pdf:Real-world Super-Resolution via Kernel Estimation and Noise Injection
code:https://github.com/jixiaozhong/RealSR

Motivation

目前很多超分模型都是基于通过双三次下采样对原始图片进行降质后得到的LR和HR配对进行训练,但是用真实世界的图片对模型进行测试,结果并不理想(模糊且有噪声)。这是因为我们忽视了一些问题:

  • 单一的双三次下采样方法使得原始图像损失了一些频率相关的细节,降质后得到的LR图像所属域X’与原始图像所属域X不同。因此,在模型训练过程中,模型会更注重X’的重要特征,而不是X的特征。
  • 通过双三次下采样得到的LR图片通常没有噪声(高频特征被忽略),但是真实图片是含有的。

为解决问题,我们提出了一种新的降质框架,通过模糊核估计以及注入噪声使得降质得到的低分辨率图像与原始图像处于同一域,并基于ESRGAN模型进行了一些改进,最后得到了比较好的效果。

Proposed Method

第一阶段:从真实数据中估计降质方法并生成真实的LR图像;(估计模糊核、噪声注入)
第二阶段:基于构建的数据集训练SR模型。
网络模型

Realistic Degradation for Super-Resolution

基于模糊核估计和噪声注入,本文设计了一种新的降质方法,公式如下:
降质方法
(其中k、n分别表示模糊核和噪声)
为了更为准确地估计降质方法,本文基于原始数据估计模糊核和噪声。在获得了模糊核和噪声patch后,构建一个降质池,基于此将HR图片进行模糊和加噪处理。

Kernel Estimation

受KernelGAN灵感的启发,本文采用了相似的模糊核估计算法,并基于真实数据设置正确参数。KernelGAN的生成器是一个没有任何激活层的线性模型,因此所有层的参数可以整合成一个固定核。估计核需要满足如下要求:
在这里插入图片描述
公式第一项是使用内核k下采样图像和具有理想内核下采样图像的误差最下化,鼓励下采样图像保留源图像的重要低频信息,第二项和第三项是对kernel进行约束,使其更符合kernel分布的先验规律;最后一项中D是鉴别器,为确保和原始图像域相同。
我们采用双三次下采样方法对原始图片进行去噪,得到HR图片。
在这里插入图片描述
然后在HR图片的基础上完成模糊处理。
在这里插入图片描述

Noise Injection

为了确保降质图片和源图片有相同的噪声分布,所以我们直接从源数据中收集噪声patches。我们发现有较丰富内容的patch会有更大的方差,基于此我们提出了一个过滤规则,收集方差在一定范围内的噪声patch,公式如下:
在这里插入图片描述
将收集好的噪声块加入到降质池,通过随机从噪声池中裁剪patch完成噪声注入。

Loss Function

基于ESRGAN,我们采用了一个SR模型并采用构造的数据集进行训练。生成器采用RRDB结构,生成图片的分辨率将被放大四倍。pixel loss、perceptual loss以及adversarial loss是模型中使用的损失函数。

  • pixel loss:采用L1 loss;
  • perceptual loss:通过VGG19提取图片特征进行比较,用于增强低频特征(边缘等)的视觉效果;
  • adversarial loss:用于增强生成图片的纹理细节,使其看起来更为真实。

整体损失函数公式如下:
在这里插入图片描述

Patch Discriminator in RealSR

此外,我们发现ESRGAN的鉴别器可能会导致伪影。与默认的ESRGAN设置不同,本文采用patch鉴别器而不是VGG-128,原因如下:

  • VGG-128限制了生成图片大小,使得多规模训练不方便;
  • VGG-128包含较深的网络并且包含了一个全连接层,因此鉴别器更关注整体特征,忽略局部特征。

我们采用具有固定感受野的全卷积结构patch鉴别器。
也就是说,每一个鉴别器的输出值仅与局部区域相关。

Related Work

KernelGAN

本文中采用的模糊核估计算法是受KernelGAN的灵感启发。
G为多层线性网络,根据输入的LR图像,生成下采样2倍的图像。然后从原始LR图像和下采样图像截取patch,输入到D网络,预测D-map。整体训练后,得到的G网络即下采样操作。
在这里插入图片描述
损失函数中包括G网络的正则项R,对G网络进行约束,使其更为符合先验规律,R具体如下:
(在本文中采用了第一项和第二项)
在这里插入图片描述

Experiments And Results

Datasets

  • DF2K:图片通过人工加入高斯噪声生成。验证集包含100对有着真实原图的图片,可以将其作为参考进行计算评估;
  • DPED:未加工的真实图片,含有噪声、模糊、亮度较低以及其他低质问题。验证集是从原图中裁剪出来的,没有真实对比,只能通过视觉效果进行比较。

Evaluation Metrics

  • PSNR:峰值信噪比
  • SSIM:结构相似性
  • LPIPS:通过预训练的Alexnet提取图像特征,然后计算其区别。更关注图片的视觉特征是否相似。

Experiments And Results
在数据集DF2K和DPED上进行测试,与EDSR、ESRGAN、ZSSR、K-ZSSR结果相比较。
本文设计模型所得出的结果更加清晰,并且由更丰富的纹理细节。此外,本文所得结果基本没有伪影。
在这里插入图片描述

本文所提出模型在NTIRE 2020 Challenge Real-World SR赛道上的结果。

在这里插入图片描述
总结与思考:
本文通过对降质方法的改进对真实数据的超分模型进行了改进,主要包括对于模糊核的估计和噪声的注入,使得LR和源数据处于相同域。在此基础上,本文还基于ESRGAN模型进行了改进,减少了图像伪影。
(recorded by zk)

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值