提出问题
目前大多数超分辨率方法都是采用MSE均方误差,以获得小的psnr,但是这种方法很难捕捉图像之间的感知差异,相反,它更喜欢没有高频细节的模糊结果,因为最小化误差会使结果回归到可能解决方案的平均值(视觉感受是平滑,模糊)。
之前的GAN-based SISR 方法:
(1)SRGAN:使用感知损失和对抗性损失项来获得视觉上令人满意的结果;
(2)Enhancenet: Single image super-resolution through automated texture synthesis.ICCV (2017)
Sajjadi等人提出了EnhanceNet,也是基于GAN的。EnhanceNet还采用了由Gatys等人的[13]启发的纹理匹配损失,以鼓励超分辨率的结果具有与ground truth HR图像相同的纹理。
存在的问题:会产生高频噪声,通过最小化像素方向的误差获得的超分辨率图像缺乏高频细节,在SRGAN中,与像素上的MSE相似,简单地最小化VGG特征的MSE并不能完全代表特征图的实际特征。
解决方案
(1)提出了一个新的SISR框架,它使用了两个不同的鉴别器:一个在图像域中工作的图像鉴别器和一个在特征域中工作的特征鉴别器。由于我们的特征鉴别器,我们的生成器网络可以产生更真实的SR结果。这是首次尝试将GAN应用于SISR特征域。
(2)本文提出了一种新型的具有远程跳线连接的generator。与现有方法相比,在相同参数下,我们的生成器在PSNR方面达到了最先进的性能。
网络架构
网络分为生成器和判别器
注意 :以下公式中i表示图片(在损失中指的是像素损失),f表示特征,g表示生成器(generator),d表示判别器(discriminator),p表示感知(perception)
生成器:
生成器模型如下图所示,生成器模型的训练分为预训练和对抗训练
- 在预训练阶段,作者通过最小化均方误差损失来训练网络,通过预训练步骤得到的网络已经能够实现高PSNR,然而,它不能产生看起来令人满意的带理想高频信息的结果。
- 对抗训练阶段,需要最小化这样一个损失函数:它包含了视觉上看起来相似的损失、图像GAN损失和特征GAN损失。
下边公式为对抗训练阶段生成器损失:
Lp为感知相似性损失,Lai是图片的损失(生成图片与HR图片在像素域上的损失),Laf是特征域的损失(用于生成特征域中的结构细节)
其中Lai为:
Laf为:
判别器:
有两个判别器,di和df,di指的是图片判别器,df为特征判别器
训练判别器
损失函数:包括Ldi(图片判别器损失)和Ldf(特征判别器损失)
(1)Ldi(图片判别器损失):
(2)Ldf(特征判别器损失)
总的训练步骤:
(1)生成器预训练;
(2)判别器(Lid和Lif)和生成器对抗训练(Lg)交替进行:交替最小化Lg、Li d和Lf d;