《小V读研笔记》#SRGAN论文详解

该文提出了SRGAN,一种基于生成对抗网络的超分辨率重建方法,特别是针对4倍放大因子的图像。SRGAN结合了内容损失和对抗损失,旨在恢复更精细的纹理细节,是首个能生成接近真实自然图像的此类框架。它使用残差块和PixeShuffler进行特征提取和上采样,同时通过VGG19网络计算内容损失,以增强感知质量。
摘要由CSDN通过智能技术生成

论文地址:http://arxiv.org/abs/1609.04802
代码传送门:DL/Super-resolution/SRGAN at main · zzbdr/DL · GitHub

一、背景

基于更快更深的 CNN 在单幅图像上的超分辨率重建的准确率和速度上都有很大的进展,但是以大的放大因子进行超分辨率重建时,无法恢复图像更精细的纹理细节。

在本文中,提出了一种用于 SR 的生成对抗网络 (GAN),即 SRGAN。它是第一个能够为 4 倍放大因子推断出真实的自然图像的框架。

二、架构

生成对抗网络就是解决对抗性最小最大化问题。

判别器希望最大化目标函数,即希望判别器尽可能识别出真假图像(对高分辨率图像 ILR 的打分尽可能趋近于 1,对生成图像 GθG( ILR ) 的打分尽可能趋近于 0)。生成器希望最小化目标函数,即希望生成的图像,判别器无法识别出真假(对生成图像 GθG( ILR ) 的打分尽可能趋近于 1)。

d2a48c7b994245acb0121508c70eeb1d.png

2.1、生成网络

ILR 是 IHR 使用双三次插值获得的。因此,对于具有 C 颜色通道的图像,用 W×H×C 的实值张量来描述 ILR ,用 rW×rH×C 的实值张量来描述 IHR 和 ISR。

ILR 经过 Conv、PReLU、 B 个残差块以及跳跃连接之后会提取低分辨率的特征,在经过两次像素重组(PixeShuffler)后放大到目标尺寸。最后,经过一层 Conv 调整通道数(因为彩色图像是三通道的)。

760c846dea9442acbb42198b63d69856.png

像素重组是将低分辨的特征图,通过卷积和多通道间的重组得到高分辨率的特征图。即将这 r*r 个通道的特征图组合为新的 w∗r, h∗r 的上采样结果。具体来说,就是将原来一个低分辨的像素划分为 r2 个更小的格子,利用 r2 个特征图对应位置的值按照一定的规则来填充这些小格子。按照同样的规则将每个低分辨像素划分出的小格子填满就完成了重组过程。

像素重组传送门:https://blog.csdn.net/Hunter_Murphy/article/details/106870845

d284f456668b4b61abbdc7ddfa51c2a7.png

注:PixeShuffler 最后不一定是展成一个二维的输出(如上图所示)。本文是对低分辨率图像放大 4 倍,因此每个 PixeShuffler 放大 2 倍。(例如:256*64*64 经过 PixeShuffler 后变为 64*128*128)

2.2、判别网络

判别网络用于判别输入图像是否为真实图像。判别网络的训练集为真图像和假图像,真图像的标签为 1,假图像的标签为 0。首先,输入一张图像经过判别器后输出一个得分,得分趋近于 1 则判别为真图像,得分趋近于 0 则判别为假图像。

判别网络包含八个卷积层,从 64 增加到 512 个卷积核,当每次特征数量加倍时,使用跨步卷积从而降低图像分辨率。生成的 512 个特征图之后通过两个全连接层后,输出为 1 维数据,最终通过 sigmoid 激活函数,获得样本分类的概率。

7e7df7b9021f432ca542dcbdb2f809ac.png

三、损失函数

有监督的 SR 算法的优化目标通常是最小化恢复的 HR 图像和地面实况之间的均方误差 (MSE),最小化 MSE 也可以最大化峰值信噪比 (PSNR),这是用于评估和比较 SR 算法的常用度量方法。由于 MSE(和 PSNR)是基于像素级图像差异定义的,因此捕获感知相关差异(例如高纹理细节)的能力非常有限,即重建的图像缺乏高频细节。另外最高 PSNR 不一定反映感知上更好的 SR 结果。因此,损失函数除了均方误差、峰值信噪比以外,在本文中提出了一种新的感知器损失。感知器损失由内容损失和对抗性损失组成。

ff7433ea689444d392c13898714a0b83.png

3.1、内容损失

内容损失是利用感知相似性替代像素空间的相似。

GG19_loss:基于预训练 VGG19 网络的 ReLU 激活层定义 VGG 损失,进行细节上的重构。

将生成的超分辨图像 SR 与原图像 HR 放入 VGG 网络中,计算它们特征图之间的差别。其中 φi,j 表示 VGG19 网络中第 i 个最大池化层之前的第 j 个卷积层(激活后)获得的特征图。

6e6bd2e5e4134a92b43edef4ab6d49bc.png

3.2、对抗损失

对抗损失 lSRGen 鼓励生成器能很好的欺骗判别器。

为了获得更好的梯度行为,最小化 − log DθD(GθG(ILR)) ,即最大化 log[1 − DθD(GθG(ILR))]。

f9ce95b1df5b4cd6b72f092c9523ec5a.png

对于生成对抗模型,最终希望对于给定的低分辨率图像经过生成器重建出高分辨率图像。

1638f8e08f9b40639d2c0ab902e09fff.png

当损失函数最小即模型达到最优效果时,根据 θG 中的参数,最终实现生成的图片能够欺骗判别器。

四、贡献

(1)将 GAN 的思想应用于 SR 任务。

(2)是第一个能够为 4 倍放大因子推断真实的自然图像的框架。

(3)提出了一种新的感知器损失。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值