《小V读研笔记》#ESRGAN 论文详解

最新推荐文章于 2024-01-24 21:06:43 发布

优优_v

最新推荐文章于 2024-01-24 21:06:43 发布

阅读量508

点赞数 1

分类专栏：超分重建文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m0_67853978/article/details/129973977

版权

超分重建专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/1809.00219.pdf
代码传送门：https://gitcode.net/mirrors/xinntao/esrgan?utm_source=csdn_github_accelerator

一、背景

大多数网络设计和训练的策略是不断提高 SR 的性能，尤其是 PSNR。PSNR指标根本不符合人类观察者的主观评价，因此生成的图像往往过于平滑且没有高频的细节。

提出了以感知为导向的方法用于提高 SR 的视觉效果（例如：SRGAN 中的感知器损失）。比起以优化PSNR为导向的方法，SRGAN 能显著的提高 SR 的整体视觉质量。然而，SRGAN 的结果与真实的图像之间存在明显的差距。

因此，本文深入研究了 SRGAN 的三个关键组成部分——网络架构、对抗损失和感知损失，并对它们进行了改进，从而得到了一种增强型 SRGAN (ESRGAN)。

二、架构

2.1、生成网络

为了进一步提高 SRGAN 重建图像的质量，主要对生成网络结构做了两处改进：

（1）移除所有 BN 层。

BN 层在训练期间使用小批量中的均值和方差来归一化特征，并在测试期间使用整个训练数据集估计的均值和方差。当训练和测试数据集的数据差异很大时，BN 层往往会引入伪像，并限制泛化能力。

为了稳定的训练和一致的性能，本文去除了 BN 层。此外，去除 BN 层有助于提高泛化能力并减少计算复杂度和内存使用。

（2）用结合了多级残差网络和密集连接的残差中残差密集块（RRDB）代替原始的残差块（RB）。

本文提出的 RRDB 采用了比 SRGAN 中的残差块具有更深、更复杂的结构。提出的 RRDB 具有残差中残差的结构，主干部分由三个残差密集块组成，残差密集块相当于将残差块与密集块相结合。最后再将网络的输出与残差边叠加。由于 RRDB 在密集块中使用密集连接，因此网络会学习到更有效的特征信息。

由于 ESRGAN 的生成网络具有更深、更复杂的结构，因此本文通过残差缩放和较小的初始化来促进网络的训练。

1）残差缩放（β）

在将残差添加到主干部分之前，通过乘以 0 和 1 之间的常数来缩小残差，有利于增强网络的稳定性。

2）较小的初始化

当初始参数方差变小时，残差架构更容易训练。

2.2、判别网络

基于相对论 GAN 进行改进判别器。 SRGAN 中判别器是判别图像谁是真的，谁是假的。而相对论判别器是预测真实图像比虚假图像更真实的概率。

相当于，SRGAN 中判别器将结果与 0, 1 进行比较，趋近于 0 则认为是假的，趋近于 1 则认为是真的。相对论判别器是将真假图像进行比较。

本文使用相对论平均判别器（DRa）来代替标准的判别器。

DRa：相对论平均判别器

C(•)：非转化的判别器输出

σ：Sigmoid 函数

Exf(•)：小批量中所有虚假数据的均值

Sigmiod 函数中自变量趋于负无穷时因变量趋于0，自变量趋于正无穷时因变量趋于1。

判别器对真实数据判决的原始值大于对生成数据判决的原始值。因此，C( Real ) - E[ C( Fake )] > 0，且该式越大表明，真假图像的差异越大；C( Fake ) - E[ C( Real )] < 0，且该式越小表明，真假图像差异越大。判别器希望能够轻易的区分真假图像，因此希望 DRa(xr,xf) 趋近于 1，DRa(xf,xr) 趋近于 0。

三、损失函数

3.1、判别网络

由上述分析可知，判别器的优化目标是希望能够轻易的区分真假图像。因此，定义了判别器损失，如下所示。

3.2、生成网络

生成器的总损失如下所示。其中 λ和η 是平衡不同损失项的系数。

（1）对抗损失

对抗损失作为生成网络的优化函数，自然是希望真假图像难以分辨。定义的对抗损失与判别器损失相反，如下所示。

生成器的对抗损失包含 xr 和 xf。因此，在对抗训练中，更有利于梯度的生成，可以更有利于图像生成边缘和细节信息。

（2）感知损失

感知损失原先是在预训练的 VGG 网络的在激活层后计算的。而本文建议在激活层之前使用特征。这克服了原始设计的两个缺点：

1）激活后的特征是稀疏化的，越深的网络越明显。稀疏的特征会导致更弱的监督，从而网络性能变差。

2）使用激活后的特征计算感知损失会导致重建图像的亮度与真实图像不一致。

（3）内容损失

内容损失是评估重建图像与原始图像之间1范数的距离，如下所示。

四、网络插值

在均方根误差( RMSE )上将感知失真平面划分为3个区域。感知指数越低，感知质量越好。均方根误差越低越好。

从下图中可以看出，RCAN 和 EDSR 算法的感知指数很高，因此感知质量不好。而本文的 ESRGAN 算法的感知质量很好，但是均方根误差却很高。

因此，为了平衡感知质量和 PSNR，本文提出的网络插值策略。首先，基于PSNR 训练一个网络 GPSNR，然后在该网络的基础上微调获得一个基于 GAN 的网络 GGAN。对这两个网络所有对应的参数进行插值，得到插值模型 GINTERP。α∈[0, 1] 是插值的参数。Θ 为网络的参数。

网络插值有两个优势：

（1）在没有引入伪影的情况下，对于任意的 α，网络插值都能生成较好的结果。

（2）在没有进行预训练模型的情况下，可以持续的平衡感知质量和精度。

在本文中也提出了其他用于平衡感知质量和 PSNR 的策略，但是都有局限性。

（1）图像插值（直接对输出进行逐像素的插值）

该方法不能平衡噪声和模糊。插值的图像要么太模糊，要么有伪影。

（2）对内容损失和对抗损失的权重进行调整（例如：λ、η）

该方法需要调整损失权重和微调网络，因此对实现图像样式的连续控制代价太大。

五、总结

（1）引入残差中残密块（RDDB）来改进网络结构。删除了批处理归一化（BN）层，并使用残差缩放和更小的初始化来促进训练非常深度的网络。

（2）使用相对论平均GAN（RaGAN）来改进判别器。通过判断“一个图像是否比另一个图像更真实”，而不是“一个图像是真是假”。实验表明，这种改进有助于生成器恢复更真实的纹理细节。

（3）通过在激活之前使用 VGG 特征来改善感知损失（SRGAN 是在激活之后使用VGG特征）。调整后的感知损失提供了更清晰的边缘和更好的视觉效果。

优优_v

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《小V读研笔记》#ESRGAN 论文详解

提出的 RRDB 具有残差中残差的结构，主干部分由三个残差密集块组成，残差密集块相当于将残差块与密集块相结合。因此，本文深入研究了 SRGAN 的三个关键组成部分——网络架构、对抗损失和感知损失，并对它们进行了改进，从而得到了一种增强型 SRGAN (ESRGAN)。生成器的对抗损失包含 xr 和 xf。由于 ESRGAN 的生成网络具有更深、更复杂的结构，因此本文通过残差缩放和较小的初始化来促进网络的训练。在将残差添加到主干部分之前，通过乘以 0 和 1 之间的常数来缩小残差，有利于增强网络的稳定性。
复制链接

扫一扫