图像超分辨重建领域文献调研（SRCNN SRGAN ESRGAN）

Multi8?

已于 2022-04-23 14:32:52 修改

阅读量5.7k

点赞数 18

分类专栏：图像超分 GAN 文章标签：图像处理

于 2022-04-23 14:22:10 首次发布

本文链接：https://blog.csdn.net/songSZH/article/details/124319392

版权

图像超分同时被 2 个专栏收录

1 篇文章 1 订阅

订阅专栏

GAN

1 篇文章 0 订阅

订阅专栏

本文介绍了三篇图像超分辨率重建在深度学习方面的文献

一、SRCNN

在这里插入图片描述

1. 解决问题

在CNN出现之前，传统超分方法是最临近插值、双线性或双三次插值等上采样方法。图像超分技术本质上是一种不适定的（ill-posed）问题，因为任意的低分辨率图像都有无数种生成高分辨率图像的解。本文直接学习低分辨率/高分辨率图像之间的端到端映射。进一步表明，传统的基于稀疏编码的SR方法也可以看作是一个深卷积网络。CNN网络结构轻巧、实现快速在线应用。本文是基于深度学习的单图像超分辨率重建技术的鼻祖。

本文贡献：

提出了一种用于图像超分辨率的全卷积神经网络。该网络直接学习低分辨率和高分辨率图像之间的端到端映射，除了优化之外，几乎不进行任何前/后处理。

在基于深度学习的SR方法和传统的基于稀疏编码的SR方法之间建立了联系。这种关系为网络结构的设计提供了指导。

证明了深度学习在超分辨率的经典计算机视觉问题中是有用的，并且可以获得良好的质量和速度。

2. 核心前述论文

2.1 Image Super-Resolution

基于稀疏编码的方法是具有代表性的基于示例的SR方法之一。首先，从输入图像中密集裁剪重叠的patches 并进行预处理。然后，这些patches 由低分辨率字典编码。稀疏系数被传递到高分辨率字典中，用于重建高分辨率patches 。将重叠的重新构建的面片聚合（例如，通过加权平均）以产生最终输出。大多数基于实例的外部方法都共享这个管道，这些方法特别注意学习和优化字典或构建高效的映射函数。然而，管道中的其余步骤很少得到优化，或者在统一的优化框架中得到考虑。

大多数SR算法侧重于灰度或单通道图像超分辨率。对于彩色图像，上述方法首先将问题转换到不同的颜色空间（YCbCr或YUV），并且SR仅应用于亮度通道。还有一些工作试图同时超级解析所有通道。例如，Kim和Kwon以及Dai等人将他们的模型应用于每个RGB通道，并将它们组合起来以产生最终结果。然而，他们都没有分析不同信道的SR性能，以及恢复所有三个信道的必要性。

2.1 Image Super-Resolution

2.3 Deep Learning for Image Restoration

多层感知器（MLP），用于自然图像去噪和去模糊后去噪。与我们的工作更密切相关的是，卷积神经网络用于自然图像去噪和去除噪声模式。这些恢复问题或多或少是由去噪驱动的。深度模型并不是专门设计为端到端的解决方案，因为级联的每一层都需要对自相似搜索过程和自动编码器进行独立优化。相反，提出的SRCNN优化了端到端映射。此外，SRCNN的速度更快。它不仅在数量上是一种优越的方法，而且是一种实用的方法。

3. Method

3.1 Formulation

首先，图像预处理：将LR图像进行双三次插值将其提升到所需的大小。
定义：
插值后的图像：Y
HR图像：X
SR图像：F(Y)，F为CNN所学习的映射
分三部分操作：

3.1.1 Patch extraction and representation （patch的提取和表示）

在这里插入图片描述
W1和B1代表卷积核和偏置，卷积核大小为c×f1×f1，c为图像通道数

3.1.2 Non-linear mapping（非线性映射）

在第一层patch提取层，将每个patch表示为n1维特征向量。在第二层操作中，将这些n1维向量映射为n2维向量。

在这里插入图片描述
W2包含大小为n1×f2×f2的n2过滤器，B2是n2维的。每个输出的n2维向量在概念上是用于重建的高分辨率patch的表示。可以添加更多卷积层以增加非线性。

3.1.3 Reconstruction（重建）

在这里插入图片描述
W3对应于大小为n2×f3×f3的c滤波器，B3是c维向量。

3.3 Training

使用均方误差（MSE）作为损失函数：
在这里插入图片描述
其中n是训练样本的数量。使用MSE作为损失函数有利于获得较高的峰值信噪比。峰值信噪比（PSNR）是一种广泛用于定量评估图像恢复质量的指标，至少与感知质量部分相关。

4. 实验细节与结果

4.1 Training Data

将只有91张图像的训练集和ImageNet训练分区大数据集进行对比，使用Set5作为验证集。
使用不同训练集的测试收敛曲线如图4所示。
在这里插入图片描述

4.3 Model and Performance Trade-offs

在这里插入图片描述

5. 未来展望

该结构具有简单性和鲁棒性的优点，可以应用于其他低层视觉问题，如图像去模糊或同步SR+去噪。人们还可以调查一个网络，以应对不同的升级因素。

二、SRGAN （SRResNet）

在这里插入图片描述

1. 解决问题：

针对单图像输入的图像超分辨率重建（SISR）问题，提出SRGAN和一种新的感知损失函数，解决之前工作的问题，如：双三次插值、SRCNN、SRResNet网络的目标函数主要集中在最小化均方（MSE）重建误差，由此产生的估计值具有较高的峰值信噪比（PSNR），但它们通常缺乏高频细节，在感知上不令人满意。

MSE（和PSNR）捕捉感知相关差异（如高纹理细节）的能力非常有限，因为它们是基于像素级图像差异定义的。有时最高的PSNR不一定反映出感知上更好的SR结果，如下图所示。

在这里插入图片描述

三个主要贡献：

通过优化MSE的16个deep ResNet (SRResNet)来实现（4×）的图像超分
提出SRGAN网络，定义一个新的优化感知损失作为目标函数
提出新的评价方法MOS，广泛平均意见评分