论文笔记EPSR:Analyzing Perception-Distortion Tradeoff using Enhanced Perceptual Super-resolution Network

作者提出的EPSR模型源码可在Github下载。

论文下载地址:https://arxiv.org/abs/1811.00344v2

ECCV2018 PIRM-SR超分辨率挑战赛地址:https://www.pirm2018.org/PIRM-SR.html

一、文章主要贡献

1.EPSR模型主要基于EDSR改进,并在ECCV2018 PIRM-SR超分辨率挑战赛中的三个区域分别位列1、2、3名。

2.EPSR模型主要由EDSR和SRGAN(主要使用SRResnet)经过小的调整构成,同时作者对生成器损失函数进行了适当改进。

3.通过EPSR模型分析了失真程度(distortion)和感知质量(perception)间的交换关系,并证明EPSR实现了最高效的交换。


二、模型结构

作者的思想其实就是将EDSR融合进SRGAN中,如图所示。conv(n,k,s)中,n, k分别指卷积核数量、尺寸,s指卷积步长。


1.生成器EDSR

EDSR直白一点讲就是SRResnet去掉了BN(Batch Normalization)结构,同时在每个Resblock(32个)的最后一个卷积后插入一个缩放层(scaling factor=0.1),这样做是为了在没有BN的情况下稳定训练过程,同时可构造更深层次且每层更多特征单元的网络。实验结果显示移除BN层可减少40%的计算消耗。

(题外,关于BN工作原理,今日发现一篇文章可以很好的解释:《How Does Batch Normalization Help Optimization?》,往后会进行阅读解析。)

损失函数:\large L_{G}=\lambda _{1}L_{VGG}+\lambda _{2}L_{E}+\lambda _{3}L_{adv},也是作者主要改良的部分,作者通过调整参数\large \lambda _{1}\large \lambda _{2}\large \lambda _{3}改变模型的高分辨率生成倾向(更加重视细节失真(相对原图)程度还是视觉舒适度),其中:

MSE均方误差 \large L_{E}=\left \| I_{est} -I_{HR}\right \|_{2}^{2} ,传统模型使用的损失,目的是使生成图像与原图尽量一致;

内容损失\large L_{_{VGG}}=\left \| \phi \left ( I_{est} \right )-\phi \left ( I_{HR} \right ) \right \|_{2}^{2} ,提供更高的细节清晰度(视觉感知质量),但细节可能与原图有差异;

对抗损失 \large L_{adv}=-\mathrm{log}D\left ( G\left ( I_{LR} \right ) \right ),同样保证视觉感知质量,内容损失和对抗损失共同组成感知损失。

 \large \phi \left ( X\right ):VGG某层特征图。这里用的VGG19中第4层卷积(激活后)、第5层最大池化前的特征图。(不太理解怎么用的VGG19,还请明白的筒子赐教)

-----------------------20181222补充-----------------------

此处VGG为独立的网络模型,(仅仅只是)用于提取更适用的特征,也需要被训练,。

--------------------------------------------------------------

\large I_{est}:生成器生成图像,\large I_{HR}:Ground truth原高清图像,\large I_{LR}:下采样低分辨图像。  


2.判别器:10层卷积网络

如上图,这里不做过多介绍。

损失函数:L_{D}=-\mathrm{log}\left ( D\left ( I_{HR} \right ) \right )-\mathrm{log}\left ( 1-D\left ( G\left ( I_{LR} \right ) \right ) \right )


三、训练细节

只说重点,训练使用的DIV2K数据集,将原图双三次插值下采样为原图1/4,作者在每一轮训练两次判别器和一次生成器,优化方法使用ADAM,训练总计300轮其中前150轮学习率为5e-5,后150轮学习率为(5e-5)/2。作者使用VGGNet的预训练模型权重加强感知损失,同时使用预训练的EDSR预训练模型参数进行训练。


四、评价分析与结论

1.评估方法

对模型的评价这里使用了2018PIRM-SR的评价方法感知质量(Perceptual Index,PI),PI越小表示感知质量越好,公示如下:

                                                              \large \mathrm{PI}=12\left (\left ( 10-\mathrm{Ma.score} \right ) +\mathrm{NIQE} \right )

其中Ma-score出自《Learning a no-reference quality metric for single-image super-resolution》,NIQE出自《Making a” completely blind” image quality analyzer》,具体不介绍,总之都是描述图像的视觉舒适度。

(题外,在PI-RMSE区里将评估区域按照详细可参考论文《The Perception-Distortion Tradeoff》。)

RMSE即均方根误差,越小图像失真程度越小。这里PI被划分了三个区域,阈值是经验取值,用来表示不同的评价倾向(更少失真程度还是更好感知质量):

\large \mathrm{Rigion 1 : RMSE}\leqslant 11.5

\large \mathrm{Rigion 2 : }11.5< \mathrm{RMSE}\leqslant 12.5

\large \mathrm{Rigion 3 : }12.5< \mathrm{RMSE}\leqslant 16

EPSR调出的三个区域最优模型对应的损失权重如下:

说明,BNet即为SRGAN去掉模型中的BN层。


2.与基于失真的评估方法的对比

下图是BNet和EPSR与各种基于失真程度建立的超分辨率方法在各数据集上得到的评价结果,因为Region1最重视降低图像的失真程度。深红、浅红分别表示在Region1获得第1、2名的结果。

结论:

(1)PSNR的优化也能带来图像感知程度的提升,但是相关性很小。

(2)EDSR和EPSR1的对比表明,对抗损失使EPSR1在感知质量上取得了显著提高的同时也减少了失真度量。


3.与其他基于感知的评估方法的对比

下图是BNet和EPSR和各种基于感知损失的超分辨率方法在各种数据集上得到的评价结果。深蓝、浅蓝分别表示在Region2获得第1、2名的结果,深红、浅红分别表示在Region3获得第1、2名的结果。

结论:为提高感官质量,网络需要生成更多逼真的纹理从而增加生成内容与原图间的偏差,通过构造有GAN的模型可得到更优秀的感知质量。


4.感知质量与失真程度的交换关系

这里是EPSR与BNet作比较,在PI-RMSE坐标上的拟合曲线如下图(a)所示,可以看到EPSR的交换效率更高于BNet。下图(b)是2018 PIRM-SR超分辨挑战赛中EPSR分别在各区域获得的成绩。

结论:带GAN的超分辨模型中通过使用更好基于失真方法的生成器能显著提高感知质量与失真程度的交换效率。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值