【论文阅读】SRCNN

是Winky啊

于 2024-10-10 23:00:40 发布

阅读量382

点赞数 29

分类专栏： # 高分对地 UAV+SRIR+OD 文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/Winkyyyyyy/article/details/142641281

版权

UAV+SRIR+OD 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

高分对地

5 篇文章 0 订阅

订阅专栏

学习资料
论文题目：Learning a Deep Convolutional Network for Image Super-Resolution（学习深度卷积网络用于图像超分辨率）
论文地址：link.springer.com/content/pdf/10.1007/978-3-319-10593-2_13.pdf
代码：作者提出的代码（matlab、caffe）Learning a Deep Convolutional Network for Image Super-Resolution其他人复现的代码（pytorch）fuyongXu/SRCNN_Pytorch_1.0: The implemention of SRCNN by pytorch1.0 (github.com)

Abstract

研究主题：这篇论文提出了一种用于单图像超分辨率（SR）的深度学习方法。

核心方法：

直接学习映射（ours）：方法是直接学习低分辨率和高分辨率图像之间的端到端映射。这个映射是通过一个深度卷积神经网络（CNN）来表示的，也就是把低分辨率图像作为输入，让网络输出高分辨率图像。
与传统方法的关联：研究还表明传统的基于稀疏编码的超分辨率方法也能被看作是一个深度卷积网络。不过传统方法是分开处理各个组件的，而本文提出的方法是联合优化所有层。

模型优势：

结构轻巧且效果好：这个深度 CNN 结构很轻巧，但却展示出了最先进的恢复质量。
速度快：在实际的在线使用中能够实现快速处理。

关键词：超分辨率、深度卷积神经网络

直接学习映射：想象我们有一个神奇的 “机器”（也就是深度卷积神经网络），它的任务是把模糊的小图片（低分辨率图像）变成清晰的大图片（高分辨率图像）。这个 “机器” 不是通过一些复杂的中间步骤去猜测如何变清晰，而是直接去学习模糊图片和清晰图片之间的一种对应关系，就像小孩子直接学习认识苹果和苹果的图片之间的联系一样，这就是端到端的映射。这个学习过程是让网络自己去发现规律，输入模糊的，输出清晰的，不断调整自己内部的设置来达到最好的效果。

与传统方法的关联：传统的基于稀疏编码的超分辨率方法也有点像一个处理图片的 “工具”，但这个 “工具” 的内部结构和我们提出的新方法不太一样。传统的这个 “工具” 就像一个组装不太好的玩具，它里面各个零件（组件）是分开处理的，比如先处理图片的一部分，再处理另一部分，没有整体地去优化。而我们提出的新方法呢，就像一个设计精良的智能机器人，它会把所有的零件（层）都联合起来考虑，一起优化，让整个 “机器” 运行得更好，更能准确地把模糊图片变成清晰图片。

1. 介绍

1.1. 研究背景

单图像超分辨率（SR）是计算机视觉中的经典问题。

目前最先进的单图像超分辨率方法大多基于样例，包括利用同一图像内部相似性或外部低和高分辨率样本对学习映射函数，但外部基于样例的方法面临有效和紧凑建模数据的困难。

基于稀疏编码的方法是基于外部样本的图像超分辨率代表性方法之一，其流程包括补丁提取和预处理、编码、重建、聚合输出等步骤，以往方法主要关注字典学习和优化，对流水线其他步骤很少统一优化。

基于稀疏编码的 SR 方法流水线相当于一个深度卷积神经网络，并受此启发进行研究。

1.2. 研究内容

提出一个名为SRCNN的卷积神经网络，它是低分辨率图像和高分辨率图像之间的端到端映射。

SRCNN有几个吸引人的特性：

1. 首先，其结构故意设计为简单，但与最先进的基于实例的方法相比，提供了卓越的准确性（根据峰值信噪比（Peak Signal - to - Noise Ratio，PSNR）进行数值评估）

2. 适度的过滤器和层数，我们的方法实现了快速的实际在线使用，即使在CPU上。我们的方法比一系列基于实例的方法更快，因为它是完全前馈的，不需要解决使用上的任何优化问题。

3. 对于这个网络（SRCNN）来说，如果满足以下两个条件中的一个或者两个同时满足，它的恢复质量就能进一步提高。

条件一：有更大的数据集可用。就好比学生学习，如果有更多的练习题（数据），那么学生对知识的掌握和运用能力可能会更强。对于网络来说，更多的数据意味着它可以学习到更多不同的低分辨率和高分辨率图像之间的关系模式，从而更好地恢复图像。（更勤奋）
条件二：使用更大的模型。可以把模型想象成一个更复杂、功能更强大的工具。更大的模型可能有更多的层、神经元或者参数，就像一个更复杂的机器能够处理更复杂的任务一样，它能够更好地学习和拟合低分辨率和高分辨率图像之间的映射关系，进而提高恢复质量。（更聪明）

3. 当有更大的数据集或者更大的模型时，不仅对提出的 SRCNN 网络有好处，同时也会给现有的基于样例的方法带来挑战。

现有的基于样例的方法往往依赖于特定的样例数据和相对固定的模型结构来学习低分辨率和高分辨率图像之间的映射关系。当出现更大的数据集时，它们可能无法像 SRCNN 那样有效地利用这些数据，因为它们的学习方式可能不够灵活。

而且如果使用更大的模型，基于样例的方法可能需要重新调整它们的算法和策略，因为它们的核心是基于样例的学习，而不是像 SRCNN 那样基于网络结构自身的优化和学习。

2. 相关工作

2.1. Image SR

先进 SR 方法的核心：一些先进的 SR 方法是学习低 / 高分辨率斑块之间的映射。

差异所在：在如何构建关联低 / 高分辨率补丁的紧凑字典或流形空间，以及在该空间中的表示方案上存在差异。

具体方法示例：

Freeman 等人：字典以低 / 高分辨率补丁对形式呈现，通过找最近邻居重建。
Chang 等人：引入流形嵌入技术替代最近邻居策略。
Yang 等人：将对应关系发展为稀疏编码公式，其及改进是先进方法之一，重点优化补丁，提取和聚合分别处理。

2.2. CNN

历史与流行原因：卷积神经网络（CNN）历史悠久，可追溯到几十年前。它最近非常流行，部分是因为在图像分类方面取得了成功。

关键进展因素

高效训练：能够在现代强大的 gpu 上高效训练，这使得模型能够更快地学习和调整参数。
ReLU 单元：修正线性单元（ReLU）的应用加快了收敛速度，同时保证了良好的质量。
丰富数据：容易获取如 ImageNet 等丰富的数据来训练更大的模型，从而提高模型的性能和泛化能力。

我们的方法也从这些进展中受益。

2.3. 图像恢复（深度学习）

深度学习用于去噪

多层感知器(MLP),其所有层都是全连接的(与卷积相比),用于自然图像去噪和去模糊后去噪｡

卷积神经网络被应用于自然图像去噪和去除噪声模式(污垢/雨水)｡

深度学习用于图像超分辨率问题

相反,就我们所知,图像超分辨率问题并没有见证深度学习技术的使用｡

3. 用于超分辨率的卷积神经网络

3.1. 构想

3.1.1. 预处理操作

对于一张低分辨率图片，首先使用双三次插值将其放大到所需大小，这是唯一的预处理操作。经过插值后的图像记为 $Y$ ，虽然它与真实高分辨率图像 $X$ 大小相同，但仍称为 “低分辨率” 图像。

目的

对于低分辨率图片，我们希望将其恢复为高分辨率图像。

双三次插值是这个过程中的第一步预处理操作，它的目的是将低分辨率图像的尺寸放大到我们期望的高分辨率图像的大致尺寸。

原理

双三次插值是一种基于周围像素值来估计新像素值的方法。它考虑了目标像素周围一个较大区域（通常是 4×4 的像素邻域）的像素信息，通过复杂的加权计算来确定新的像素值。这样可以使放大后的图像在一定程度上保持平滑和自然的过渡，避免出现明显的锯齿状或块状的不连续现象。

“低分辨率” 称呼的原因

尽管经过双三次插值后图像的尺寸与真实高分辨率图像相同，但它仍然被称为 “低分辨率” 图像。这是因为仅仅通过插值操作并没有真正恢复图像的细节和清晰度，它只是在尺寸上进行了放大，图像的实质内容仍然是低分辨率的质量水平。后续还需要通过一系列的操作（如 SRCNN 中的 Patch 提取和表示、非线性映射和重建等操作）来进一步提高图像的分辨率和质量，使其真正接近或达到高分辨率图像的水平。

就比如说把 4×4 的低分辨率图像通过双三次插值变为 16×16 后，虽然图像的像素数量增多了（尺寸变大），但每个像素所包含的信息并没有实质性的改变，图像仍然缺乏高分辨率图像应有的细节和清晰度，所以分辨率还是低的。这种放大后的图像只是在空间维度上进行了扩展，但并没有在分辨率这个关键属性上得到本质提升。后续需要进一步的处理才能让它真正具有高分辨率图像的质量。

3.1.2. 目标任务

目标是从 $Y$ 中恢复出图像 $F(Y)$ ，使其尽可能与真实高分辨率图像 $X$ 相似，也就是要学习映射 $F$ 。

3.1.3. 映射F的组成概念

映射 $F$ 在概念上由三个操作组成，所有这些操作形成一个卷积神经网络，如图所示。

第一层：Patch提取和表示

就像是把低分辨率图像分成很多小块（patch）。传统方法是用一些预先准备好的工具（基）来表示这些小块，但 SRCNN 把这些工具的优化放到网络里一起做。

$F_{1}(Y)=max(0,W_{1}\ast Y+B_{1})$ 。

$W_{1}$ 是滤波器，大小为 $c\times f_{1}\times f_{1}\times n_{1}$ ，其中 $c$ 是输入图像通道数， $f_{1}$ 是滤波器空间大小， $n_{1}$ 是滤波器数量。它在图像上应用 $n_{1}$ 个卷积，每个卷积核大小为 $c\times f_{1}\times f_{1}$ ，输出由 $n_{1}$ 个特征图组成。

$B_{1}$ 是 $n_{1}$ 维向量，每个元素与一个过滤器相关联。

在滤波器响应上应用 $ReLU\left ( max(0,x) \right )$ 。

第二层：非线性映射

该操作将每个高维向量非线性映射到另一个高维向量上｡每个映射的向量在概念上是一个高分辨率patch的表示｡这些向量组成了另一组特征图｡

把上一步得到的高维向量再进行变化。就好像把一种语言翻译成另一种语言，但是这个翻译过程不是简单的对应，而是有一些复杂的规则。

$F_{2}(Y)=max(0,W_{2}\ast F_{1}(Y)+B_{2})$

第一层为每个 patch 提取了 $n_{1}-dimensional$ 特征，第二层要将这些特征向量中的每一个映射为 $n_{2}-dimensional$ 向量。

$W_{2}$ 的大小是 $n_{1}\times 1\times 1\times n_{2}$ ，相当于应用 $n_{2}$ 个具有 $1\times 1$ 空间支持的过滤器。 $B_{2}$ 是 $n_{2}-dimensional$ 。

第三层：重建

把第二步得到的所有代表高分辨率小块的向量再组合起来，就像把很多拼图碎片拼成一幅完整的图，最终得到一个高分辨率的图像，这个图像要尽可能和原始的高分辨率图像 $X$ 相似。

$F(Y)=W_{3}\ast F_{2}(Y)+B_{3}$

3.2. 与基于稀疏编码的方法的关系

3.2.1. 共同点

基于稀疏编码的SR方法与SRCNN在三个操作上的共同点

3.2.2. 不同点

基于稀疏编码的 SR 方法的优化中，没有考虑到所有的操作。

在卷积神经网络中，低分辨率字典、高分辨率字典、非线性映射，以及均值减法和平均，都涉及到要优化的滤波器中，优化了一个由所有操作组成的端到端映射。

3.3.3. 通过类比帮助设计超参数

可以将最后一层的滤波器尺寸设置为比第一层小，更依赖于高分辨率 patch 的中心部分。

可以设置 $n_{2}< n_{1}$ ，因为预计它会更稀疏，一个典型的设置是 $f_{1}=9,f_{3}=5,n_{1}=64,n_{2}=32$ 。

3.3. 损失函数

3.3.1. 定义

公式

使用均方误差（Mean Squared Error, MSE）作为损失函数

$L\left ( \Theta \right )=\frac{1}{n}\sum_{i=1}^{n}\left \| F\left ( Y_{i;} \Theta \right ) -X_{i}\right \|^{2}$

参数说明

给定一组高分辨率图像 $\left \{ X_{i} \right \}$ 及其对应的低分辨率图像 $\left \{ Y_{i} \right \}$ ，再重建出图像 $F\left ( Y_{i} \right )$

学习端到端的映射函数 $F$ 需要估计参数 $\Theta =\left \{W_{1},W_{2},W_{3},B_{1},B_{2},B_{3}\right \}$

其中 $n$ 是训练样本的数量。

3.3.2. 优化方法

采用标准反向传播的随机梯度下降来最小化损失函数 $L\left ( \Theta \right )$ 。

3.3.3. 选择的考量

MSE 的优势

使用 MSE 作为损失函数有利于获得高 PSNR（峰值信噪比）。
PSNR 是广泛用于定量评价图像恢复质量的度量，且至少部分与感知质量相关。

卷积神经网络的灵活性

卷积神经网络并不局限于使用 MSE 作为损失函数，只要其他损失函数是可导的，就可以使用。
如果在训练过程中给出更好的感知激励指标，网络能够灵活适应，这是传统方法难以做到的。

4. 实验

4.1. 实验准备

4.1.1. 数据集

使用与Anchored Neighborhood Regression for Fast Example-Based Super-Resolution (cv-foundation.org)中相同的训练集、测试集和协议。

训练集由 91 张图像组成

使用 Set5（5 张图片）评估放大因子2、3、4的性能

使用 Set14（14 张图片）评估放大因子3的性能

在 5.2 节还研究了一个更大的训练集（ILSVRC 2013 ImageNet 检测训练分区中的 395,909 张图像）。

4.1.2. 比较方法

将 SRCNN 与最先进的 SR 方法进行比较：

包括 Yang 等人的 SC（稀疏编码）方法

基于K-SVD的方法

NE + LLE（邻居嵌入 + 局部线性嵌入）

NE + NNLS（邻居嵌入 + 非负最小二乘）

ANR（锚定邻域回归）方法

（看到表格中还加了双三次插值（BiCubic插值）方法，应该是作为baseline，SC、K-SVD、NE + LLE、NE + NNLS、ANR、SRCNN都是在BiCubic处理后的基础上进行处理）

4.1.3. 实现细节

根据 3.2 节，设置 $f_{1}=9,f_{3}=5,n_{1}=64,n_{2}=32$ ，并在第 5 节评估备选设置。

对于每个上尺度因子 $\in \left \{ 2,3,4\right \}$ ，训练一个特定的网络。

准备训练数据：将 ground truth images $X_{i}$ 裁剪为 $32\times 32-pixel$ 的子图像，通过适当处理合成低分辨率样本 $Y_{i}$ 。91 张训练图像提供约 24800 张子图像。

网络设置：所有卷积层无填充；网络产生更小输出 $\left ( 20\times 20 \right )$ ，MSE 损失函数通过 $X_{i}$ 中心 $20\times 20$ 裁剪与网络输出差异评估；测试时，卷积层给予零填充使输出与输入同大小，并对输出进行归一化处理；仅考虑亮度通道 $\left ( c=1 \right )$ ，可扩展到彩色图像 $\left ( c=3 \right )$ ；各层滤波器权重初始化，前两层学习率为 $10^{-4}$ ，最后一层学习率为 $10^{-5}$ 。