《Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution》
前言
论文:https://arxiv.org/pdf/2203.09195.pdf
参考:CVPR22: 超分辨率 | 一种真实图像超分辨率的局部判别学习方法 - 知乎
一、基本信息
研究背景:单图像超分辨率(SISR)问题,它旨在从低分辨率(LR)图像重建高分辨率(HR)图像。最近,由于其生成丰富细节的潜力,使用生成对抗网络(GAN)的SISR引起了越来越多的关注。然而,GAN的训练不稳定,它经常在生成的细节中引入许多感知上不愉快的伪影。
研究目的:这篇工作的motivation是解决两个问题:
1、GAN-based的SISR模型训练的不稳定
2、GAN-based的SISR模型训练出来后虽然能产生真实的细节,但是也会产生很多视觉伪影
研究方法:作者提出了一种简单而有效的局部判别学习(LDL)方法,它可以轻松地插入现成的SISR方法并提升它们的性能。
研究结果:实验表明,LDL优于最先进的基于GAN的SISR方法,在合成和真实世界数据集上都实现了更高的重建精度和更优越的感知质量。
数据集:在训练过程中,它使用了DIV2K和DF2K数据集。在评估过程中,它使用了6个基准测试集,包括Set5、Set14、Manga109、General100、Urban100和DIV2K100。
评价指标:对于感知质量,它使用了LPIPS、DISTS和FID指标。对于重建精度,它计算了PSNR和SSIM指标。
二、基本内容
1、Introduction
作者在introduction里将GAN-based的SR methods产生的结果分为了3类。
上图是由ESRGAN生成的SR Results。
- TypeA类的patches是很容易超分出来的,A类的patches具有的特性是smooth和latge-scale。
- TypeB中大部分是random distributed的细节,人类对它的感知是很不敏感的。
- TypeC类是TypeC是regular structures or sharp transitions among adjacent pixels细节,被称为fine-scale details,它很难被restored出来,是因为它是混叠的失真。而具备这种类型的patches再用GAN-based模型超分后就会具备很多伪影。
作者将上述三类进行分析后,提出要保留A和B类,C类要被抑制。因此,作者提出的methods有以下:
- 作者构建了一个pixel-wise map去预测每一个pixel是伪影的概率。
- 作者通过即时梯度下降的方式去refine了discrimination map,去向high-fidelity的重建进行精确优化。
- 作者设计了Locally Discriminative Learning(LDL)框架去惩罚伪影在不影响真实细节的前提下。
2、Method
GAN-SR induced visual artifacts
大部分的GAN-SR方法用的Loss函数是这个:
其中Lrecons是pixel-wise的reconstruction loss,例如l1和l2距离。对于先前的SRGAN,只用 Lperceploss。Lpercep是perceptual loss,用于测算VGG feature space。 Ladv 是广义的loss,能够使SISR方法远离blurred average,生成更多的细节。
如上图所示,是GAN-SR的results,其中LR patches是用2 x 2 average pooling从HR patches得到的。从图中可以看到,Type-A类可以很好的reproduced,像B类也可以重现出来。但是C类效果就非常差。
3、Discriminating artifacts from realistic details
在经过上述研究后,作者提出要抑制C类patches的生成,保留A和B类的patches的生成。为此,作者设计了一个pixel-wise map去区别真实细节同时去稳定GAN-SR的训练。
作者计算了I_HR和SISR result:
就是上面图片的第三列。 通过观察,artifacts经常包含overshoot pixel values。因此,作者计算了local variance在residual map上去indicate artifact pixels.
其中var是variance operator,n是local window size。上图的第四列是计算出来的M。因为local variance是patches具有小感受野时计算出来的,所以它并不能稳定的从edges和textures区别出来。A和B类也有lage response,会造成wrong punishment在realistic details上。为了解决这个问题,作者提出了stable patch-level variance
效果如上图第五列。 但是现在还存在一个问题,会over-penalize realistic details in patch C,轻度惩罚A和B,尤其在早期时。为了缓解这个问题,作者选用了即时梯度下降。EMA去集成一个更稳定的model:
用ISR 1 = Ψ(ILR)和ISR 2 = ΨEMA(ILR)表示两个GAN-SR模型的输出。ISR2具有很少的artifacts,而ISR1可以同时包含更多的细节和artifacts。然后还计算了:
最终refine了artifacts map通过下述方式:
最后M_refine是第六列的效果。 作者设计了loss:
最终的Loss被定义为:
最终作者的训练流程如下图:
在不同的网络和数据集下进行验证的效果:
GAN-SR方法和所提出的LDL之间的定量比较。基于所采用的骨干网络进行三组比较:前3列为SRResNet样骨架,中间5列为RRDB骨架,最后2列为SwinIR骨架。每组的最佳结果以粗体突出显示。↑和↓分别表示分数越大或越小越好。
3、结论
本文分析了基于GAN的SISR方法产生视觉伪影的原因,提出了一种局部判别学习方法(LDL)策略来解决这个问题。精心设计了一个框架,用于在GAN-SR模型训练过程中区分视觉伪影和现实细节,并且生成伪影图以明确地惩罚伪影而不牺牲真实细节。所提出的LDL方法可以很容易地插入到不同的现成的GAN-SR模型中,用于合成和真实世界的SISR任务。在广泛使用的数据集上进行的大量实验表明,LDL在定量和定性方面都优于现有的GAN-SR方法。