SRCNN论文翻译(Image Super-Resolution Using Deep Convolutional Networks)

摘要

我们提出了一种单图像超分辨率(SR)的深度学习方法。我们的方法直接学习低/高分辨率图像之间的端到端映射。该映射表示为深度卷积神经网络(CNN),其将低分辨率图像作为输入并输出高分辨率图像。我们进一步表明,传统的基于稀疏编码的SR方法也可以被视为深度卷积网络。但与分别处理每个组件的传统方法不同,我们的方法共同优化所有层。我们的深层CNN具有轻质结构,同时展示了最先进的修复质量,并实现了实际在线使用的快速速度。我们探索不同的网络结构和参数设置,以实现性能和速度之间的权衡。此外,我们扩展我们的网络以同时处理三个颜色通道,并显示更好的整体重建质量。

1 INTRODUCTION

单图像超分辨率(SR)[18]旨在从单个低分辨率图像中恢复高分辨率图像,是计算机视觉中的经典问题。由于对于任何给定的低分辨率像素存在多种解决方案,因此该问题本质上是不合适的。换句话说,它是一个欠定的反问题,其解决方案并不是唯一的。通常通过强大的先验信息约束解空间来减轻这种问题。为了学习先前的技术,最新的方法大多采用基于实例的[47]策略。这些方法要么利用相同图像的内部相似性[5],[12],[15],[49],要么学习来自外部低分辨率和高分辨率范例对的映射函数[2],[4],[14], [21],[24],[42],[43],[49],[50],[52],[53]。外部示例性方法可以被制定用于通用图像超分辨率,或者可以被设计为根据提供的训练样本满足领域特定任务,即面部幻觉[30],[52]。

基于稀疏编码的方法[51],[52]是基于示例的外部示例的SR方法之一。该方法在其解决方案管道中涉及若干步骤。首先,从输入图像密集地裁剪重叠的块并进行预处理(例如,减去均值和归一化)。然后,这些补丁由低分辨率字典编码。稀疏系数被传递到高分辨率字典中以重建高分辨率补丁。重叠重建的补丁(例如,通过加权平均)以产生最终输出。这个流程由大多数基于外部实例的方法共享,它们特别注重学习和优化词典[2],[51],[52]或构建有效的映射函数[24],[42],[43], [49]。但是,流程中的其余步骤很少在统一优化框架中进行优化或考虑。

在本文中,我们表明上述流程相当于深度卷积神经网络[26](更多细节见第3.2节)。受此事实的启发,我们考虑一种卷积神经网络,它直接学习低分辨率图像和高分辨率图像之间的端到端映射。我们的方法与现有的基于外部示例的方法有根本的区别,因为我们的方法没有明确地学习字典[42],[51],[52]或流形[2],[4]来建模补丁空间。这些是通过隐藏层隐式实现的。此外,补丁提取和聚合也被公式化为卷积层,因此参与优化。在我们的方法中,整个SR流程完全通过学习获得,几乎没有预处理/后处理。

我们将所提出的模型命名为超分辨率卷积神经网络(SRCNN)1。拟议的SRCNN具有几个吸引人的特性。首先,它的结构在设计时考虑到了简单性,与最先进的基于实例的方法相比,提供了更高的精度。图1显示了一个例子的比较。第二,适度通过数量的滤波器和层,我们的方法实现了即使在CPU上实际在线使用的快速速度。我们的方法比许多基于示例的方法更快,因为它是完全前馈的,不需要解决任何优化使用问题。第三,实验表明,当(i)更大和更多样化的数据集可用时,和/或(ii)使用更大和更深的模型时,可以进一步改善网络的恢复质量。相反,较大的数据集/模型可能对现有的基于示例的方法提出挑战。此外,虽然大多数现有方法[12],[15],[23],[29],[38],[39],[42],[46],[48]和52不容易扩展,在处理彩色图像中的多个通道时,所提出的网络可以同时处理三个通道的彩色图像,以实现改善的超分辨率性能。

图1.提出的超分辨率卷积神经网络(SRCNN)仅通过一些训练迭代就超过了双三次基线,并且在适度训练的情况下优于基于稀疏编码的方法(SC)[52]。通过更多的训练迭代可以进一步提高性能。更多细节在第4.4.1节(具有升级因子3的Set5数据集)中提供。所提出的方法提供视觉上吸引人的重建图像。

总的来说,这项研究的贡献主要在于三个方面: 1)我们提出了一个完全卷积神经网络的图像超分辨率。网络直接学习低分辨率图像和高分辨率图像之间的端到端映射,除了优化之外几乎没有预处理/后处理。 2)我们建立了基于深度学习的SR方法与传统的基于稀疏编码的SR方法之间的关系。这种关系为网络结构的设计提供了指导。 3)我们证明深度学习在超分辨率的经典计算机视觉中是有用的,并且可以实现良好的质量和速度。

这项工作的初步版本已在前面提出[10]。目前的工作以重要的方式增加了初始版本。首先,我们通过在非线性映射层中引入更大的滤波器尺寸来改进SRCNN,并通过添加非线性映射层来探索更多结构。其次,我们扩展SRCNN以同时处理三个颜色通道(在YCbCr或RGB颜色空间中)。实验上,我们证明与单通道网络相比,性能可以得到改善。第三,在初始结果中增加了相当多的新分析和直观解释。我们还将原始实验从Set5 [2]和Set14 [53]测试图像扩展到BSD200 [32](200个测试图像)。此外,我们将与最近发布的一些方法进行比较,并确认我们的模型仍然优于使用不同评估指标的现有方法。

2 RELATED WORK

2.1 Image Super-Resolution

根据图像先验,单图像超分辨率算法可以分为四种类型 - 预测模型,基于边缘的方法,图像统计方法和基于补丁的(或基于示例的)方法。 Yang等人的研究[47]对这些方法进行了彻底的研究和评估。其中,基于实例的方法[15],[24],[42],[49]实现了最先进的性能。

基于内部示例的方法利用属性自相似性并从输入图像生成示例性补丁。它首先在Glasner的工作中提出[15],并提出了几种改进的变体[12],[48]来加速实施。基于外部实例的方法[2],[4],[14],[42],[50],[51],[52],[53]学习和映射低/ 。这些研究在如何学习紧凑字典或流形空间以关联低/高分辨率补丁以及如何在这样的空间中执行表示方案方面存在差异。在Freeman等人的先驱工作中。 [13],字典直接表示为低/高分辨率的补丁对,输入补丁的最近邻居(NN)位于低分辨率空间,其相应的高分辨率补丁用于重建。Chang等。 [4]引入了流形嵌入技术作为NN策略的替代方案。在Yang等人的着作[51],[52]中,上述NN对应进展到更复杂的稀疏编码公式。提出了其他映射函数,如核回归[24],简单函数[49]和锚定邻域回归[42],[43],以进一步提高映射精度和速度。基于稀疏编码的方法及其若干改进[42],[43],[50]是目前最先进的SR方法之一。在这些方法中,补丁是优化的重点;补丁提取和聚合步骤被视为前/后处理并单独处理。

大多数SR算法[2],[4],[14],[42],[50],[51],[52],[53]专注于灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转换为不同的颜色空间(YCbCr或YUV),并且仅在亮度通道上应用SR。由于亮度通道和色度通道之间固有的不同特性,这些方法很难直接扩展到高维数据。还有尝试同时超级解析所有通道。例如,Kim和Kwon [24]和Dai等人。 [6]将他们的模型应用于每个RGB通道并将它们组合以产生最终结果。然而,他们都没有分析不同频道的性能,以及恢复所有三个频道的必要性。

2.2 Convolutional Neural Networks

卷积神经网络(CNN)可以追溯到几十年前[26],深度CNN最近表现出爆炸性的普及,部分原因在于它在图像分类方面的成功[17],[25]。它们也已成功应用于其他计算机视觉领域,如物体检测[34],[41],[54],人脸识别[40]和行人检测[35]。在这一进展中,有几个因素至关重要:(i)现代功能强大的GPU的有效培训实施[25],(ii)整流线性单元(ReLU)[33]的提议,它使收敛更快,同时仍然表现良好质量[25],以及(iii)轻松访问大量数据(如ImageNet [8]),用于培训大型模型。我们的方法也受益于这些进步。

2.3 Deep Learning for Image Restoration

已经有一些使用深度学习技术进行图像恢复的研究。多层感知器(MLP),其所有层都是完全连接的(与卷积相反),用于自然图像去噪[3]和后去模糊去噪[36]。与我们的工作更密切相关的是,卷积神经网络应用于自然图像去噪[20]并去除噪声模式(污垢/雨)[11]。这些恢复问题或多或少都是去噪驱动的。崔等人。 [5]建议在基于内部示例的方法[15]的概念中将自动编码器网络嵌入其超分辨率流水线中。深度模型并非专门设计为端到端解决方案,因为级联的每个层都需要独立优化自相似性搜索过程和自动编码器。相反,提出的SRCNN优化了端到端映射。

3 CONVOLUTIONAL NEURAL NETWORKS FOR SUPER-RESOLUTION

3.1 Formulation

考虑一个低分辨率图像,我们首先使用双三次插值将其放大到所需的大小,这是我们执行的唯一预处理3。让我们将插值图像表示为Y.我们的目标是从Y中恢复与地面实况高分辨率图像X尽可能相似的图像F(Y)。为了便于呈现,我们仍称Y为“低分辨率的“图像,虽然它与X具有相同的大小。我们希望学习映射F,它在概念上由三个操作组成:
1)补丁提取和表示:该操作从低分辨率图像Y中提取(重叠)补丁,并将每个补丁表示为高维向量。这些向量包括一组特征图,其数量等于向量的维数。
2)非线性映射:该操作是每个高维向量到另一个高维向量的非线性映射。每个映射的矢量在概念上是高分辨率补丁的表示。这些向量包括另一组特征映射。
3)重建:该操作聚合高分辨率补丁表示以生成最终的高分辨率图像。预计该图像与地面实况X相似。

我们将证明所有这些操作形成卷积神经网络。图2中描述了网络的概述。接下来,我们详细说明了每个操作的定义。

图2.给定低分辨率图像Y,SRCNN的第一卷积层提取一组特征图。第二层将这些特征映射非线性地映射到高分辨率补丁表示。最后一层组合空间邻域内的预测以产生最终的高分辨率图像F(Y)。

3.1.1 Patch extraction and representation

图像恢复中的流行策略(例如,[1])是密集地提取补丁,然后通过一组预先训练的基础(例如PCA,DCT,Haar等)来表示它们。这相当于通过集合卷积图像。过滤器,每个过滤器都是基础。在我们的表述中,我们将这些基础的优化包括在网络的优化中。形式上,我们的第一层表示为操作F1:
F 1 ( Y ) = max ⁡ ( 0 , W 1 ∗ Y + B 1 ) F_{1}(\mathbf{Y})=\max \left(0, W_{1} * \mathbf{Y}+B_{1}\right) F1(Y)=max(0,W1Y+B1)
其中W1和B1分别代表滤波器和偏置。这里W1的大小为c * f1 * f1 * n1,其中c是输入图像中的通道数,f1是滤波器的空间大小,n1是滤波器的数量。很明显,W1在图像上应用n1个卷积,每个卷积的内核大小为c * f1 * f1 。输出由n1个特征映射组成。 B1是n1维向量,其每个元素与滤波器相关联。我们在滤波器响应4上应用整流线性单元(ReLU,max(0,x))[33]。

3.1.2 Non-linear mapping 非线性映射

第一层为每个补丁提取n1维特征。在第二操作中,我们将这些n1维向量中的每一个映射为n2维向量。这相当于应用具有平凡空间支持1 x 1的n2滤波器。此解释仅适用于1 x 1过滤器。但是很容易推广到像3 x 3或5 x 5这样的大型滤波器 。在那种情况下,非线性映射不是输入图像的补丁; 相反,它是在3 x 3或5 x 5特征图的“补丁”。第二层的操作是:
F 2 ( Y ) = max ⁡ ( 0 , W 2 ∗ F 1 ( Y ) + B 2 ) F_{2}(\mathbf{Y})=\max \left(0, W_{2} * F_{1}(\mathbf{Y})+B_{2}\right) F2(Y)=max(0,W2F1(Y)+B2)
这里W2的大小是n1 x f2 x f2 x n2,B2是n2维。每个输出n2维向量在概念上是将用于重建的高分辨率补丁的表示。

可以添加更多卷积层以增加非线性。但这会增加模型的复杂性(一层的n2 x f2 x f2 x n2参数),因此需要更多的训练时间。我们将通过在4.3.3节中引入额外的非线性映射层来探索更深层的结构。

3.1.3 Reconstruction

在传统方法中,经常对预测的重叠高分辨率补丁进行平均以产生最终的完整图像。平均可以被认为是一组特征图上的预定义滤波器(其中每个位置是高分辨率补片的“扁平”矢量形式)。由此推动,我们定义卷积层以产生最终的高分辨率图像:
F ( Y ) = W 3 ∗ F 2 ( Y ) + B 3 F(\mathbf{Y})=W_{3} * F_{2}(\mathbf{Y})+B_{3} F(Y)=W3F2(Y)+B3
这里W3的大小是n2 x f3 x f3 x c,B3是三维矢量。

如果高分辨率色块的表示位于图像域中(即,我们可以简单地重塑每个表示以形成色块),我们期望滤波器就像平均滤波器一样;如果高分辨率色块的表示位于某些其他域中,我们预计W3的行为类似于首先将系数投影到图像域上然后进行平均。无论哪种方式,W3都是一组线性滤波器。

有趣的是,尽管上述三种操作都是由不同的直觉驱动的,但它们都导致与卷积层相同的形式。我们将所有三个操作放在一起并形成卷积神经网络(图2)。在此模型中,将优化所有过滤权重和偏差。尽管整体结构简洁,但我们的SRCNN模型是通过借鉴超分辨率的显着进步所获得的丰富经验而精心开发的[51],[52]。我们将在下一节详细介绍这种关系。

3.2 Relationship to Sparse-Coding-Based Methods

我们证明了基于稀疏编码的SR方法[51],[52]可以看作是一个卷积神经网络。图3显示了一个例子。

图3.卷积神经网络视图中基于稀疏编码的方法的图示。

在基于稀疏编码的方法中,让我们考虑一下f1 x f1从输入图像中提取低分辨率补丁。该补丁按其均值减去,然后投影到(低分辨率)字典上。如果字典大小为n1,这相当于在输入图像上应用n1个线性滤波器(f1 x f1)(平均减法也是线性运算,因此可以被吸收)。这被示为图3的左侧部分。

然后将稀疏编码求解器应用于投影的n1系数(例如,参见特征符号求解器[28])。该求解器的输出为n2个系数,在稀疏编码的情况下通常为n2 = n1。这些n2系数是高分辨率补丁的表示。在这个意义上,稀疏编码求解器表现为非线性映射运算符的特殊情况,其空间支持为1 x 1.参见图3的中间部分。然而,稀疏编码求解器不是前馈的,即它是迭代算法。相反,我们的非线性算子是完全前馈的,可以有效地计算。如果我们设置f2 = 1,那么我们的非线性算子可以被认为是像素方式的完全连接层。

然后将上述n2个系数(在稀疏编码之后)投影到另一个(高分辨率)字典上以产生高分辨率的补丁。然后对重叠的高分辨率补丁进行平均。如上所述,这相当于n2特征图上的线性卷积。如果用于重建的高分辨率补丁大小为f3 x f3,那么线性滤波器具有大小为f3 x f3的等效空间支持。请参见图3的右侧部分。

上述讨论表明,基于稀疏编码的SR方法可以看作是一种卷积神经网络(具有不同的非线性映射)。但并非所有操作都在基于稀疏编码的SR方法的优化中考虑过。相反,在我们的卷积神经网络中,低分辨率字典,高分辨率字典,非线性映射,以及平均减法和平均值都涉及要优化的过滤器。因此,我们的方法优化了包含所有操作的端到端映射。

上述类比也可以帮助我们设计超参数。例如,我们可以将最后一层的滤波器大小设置为小于第一层的滤波器大小,因此我们更多地依赖于高分辨率补丁的中心部分(如果f3 = 1,我们使用没有平均的中心像素)。我们也可以设置n2 <n1,因为它预计会更稀疏。典型和基本设置是f1 = 9,f2 = 1,f3 = 5,n1 = 64,n2 = 32(我们在实验部分评估更多设置)。总的来说,高分辨率像素的估计利用(9 + 5 - 1)2 = 169像素的信息。显然,用于重建的信息比现有的基于外部示例的方法所使用的信息要大,例如使用5 x 5 = 25像素[14],[52]。这是SRCNN提供卓越性能的原因之一。

3.3 Training

学习端到端映射函数F需要估计网络参数 θ \theta θ = { W 1 , W 2 , W 3 , B 1 , B 2 , B 3 } \left\{W_{1}, W_{2}, W_{3}, B_{1}, B_{2}, B_{3}\right\} {W1,W2,W3,B1,B2,B3}。这是通过最小化重建图像 F ( Y ; Θ ) F(\mathbf{Y} ; \Theta) F(Y;Θ)和相应的地面实况高分辨率图像X之间的损失来实现的。给定一组高分辨率图像 { X i } \left\{\mathbf{X}_{i}\right\} {Xi}及其对应的低分辨率图像 { Y i } \left\{\mathbf{Y}_{i}\right\} {Yi},我们使用均方误差( MSE)作为损失函数:
L ( Θ ) = 1 n ∑ i = 1 n ∥ F ( Y i ; Θ ) − X i ∥ 2 L(\Theta)=\frac{1}{n} \sum_{i=1}^{n}\left\|F\left(\mathbf{Y}_{i} ; \Theta\right)-\mathbf{X}_{i}\right\|^{2} L(Θ)=n1i=1nF(Yi;Θ)Xi2
其中n是训练样本的数量。使用MSE作为损失函数有利于高PSNR。 PSNR是用于定量评估图像恢复质量的广泛使用的度量,并且至少部分地与感知质量相关。值得注意的是,如果仅可导出损失函数,则卷积神经网络不排除使用其他类型的损失函数。如果在培训期间给出了更好的感知动机度量,则网络可以灵活地适应该度量。相反,传统的“手工”方法通常很难实现这种灵活性。尽管所提出的模型训练有利于高PSNR,但当使用替代评估指标评估模型时,我们仍然观察到令人满意的性能,例如SSIM,MSSIM(参见第4.4.1节)。

使用标准反向传播的随机梯度下降使损失最小化[27]。特别是,权重矩阵更新为
Δ i + 1 = 0.9 ⋅ Δ i + η ⋅ ∂ L ∂ W i ℓ , W i + 1 ℓ = W i ℓ + Δ i + 1 \Delta_{i+1}=0.9 \cdot \Delta_{i}+\eta \cdot \frac{\partial L}{\partial W_{i}^{\ell}}, \quad W_{i+1}^{\ell}=W_{i}^{\ell}+\Delta_{i+1} Δi+1=0.9Δi+ηWiL,Wi+1=Wi+Δi+1
其中 ℓ ∈ { 1 , 2 , 3 } \ell \in\{1,2,3\} {1,2,3}和 i 是图层和迭代的索引, η \eta η 是学习率, ∂ L ∂ W j ℓ \frac{\partial L}{\partial W_{j}^{\ell}} WjL 是衍生物。通过从具有零均值和标准偏差0.001(和偏差为0)的高斯分布中随机绘制来初始化每个层的滤波器权重。前两层的学习率为 1 0 − 4 10^{-4} 104,最后一层的学习率为 1 0 − 5 10^{-5} 105。我们凭经验发现,最后一层中较小的学习率对于网络收敛很重要(类似于去噪情况[20])。

在训练阶段,准备 ground truth 图像 { X i } \left\{\mathbf{X}_{i}\right\} {Xi}作为从训练图像中随机裁剪的 ∫ 8 u b × f g u b × C \int_{8 u b} \times f_{g u b} \times C 8ub×fgub×C像素子图像。 “子图像”是指这些样本被视为小“图像”而不是“补丁”,因为“补丁”是重叠的并且需要一些平均作为后处理但是“子图像”为了合成低分辨率样本 { Y i } \left\{\mathbf{Y}_{i}\right\} {Yi},我们通过高斯核模糊子图像,通过升尺度因子对其进行子采样,并通过双三次插值将其放大到相同的因子。

为了避免训练期间的边界效应,所有卷积层都没有填充,网络产生较小的输出 ( ( f s u b − f 1 − f 2 − f 3 + 3 ) 2 × c ) \left(\left(f_{s u b}-f_{1}-f_{2}-f_{3}+3\right)^{2} \times c\right) ((fsubf1f2f3+3)2×c)。仅通过 X i \mathbf{X}_{i} Xi 的中心像素与网络输出之间的差异来评估MSE损失函数。虽然我们在训练中使用固定的图像尺寸,但卷积神经网络可以在测试期间应用于任意大小的图像。

我们使用cuda-convnet包实现我们的模型[25]。我们也尝试了Caffe包[22]并观察到类似的性能。

4 EXPERIMENTS

我们首先研究使用不同数据集对模型性能的影响。接下来,我们将研究通过我们的方法学习的滤波器。然后我们探索网络的不同架构设计,并研究超分辨率性能与深度,滤波器数量和滤波器大小等因素之间的关系。随后,我们在数量和质量上将我们的方法与最近的现有技术进行了比较。最后,我们扩展网络以应对彩色图像并评估不同通道的性能。

4.1 Training Data

大数据培训带来的好处。为了进行比较,我们使用了一个相对较小的训练集[42],[52],其中包含91个图像,以及一个大型训练集,其中包含来自ILSVRC 2013 ImageNet检测训练分区的395,909个图像。训练子图像的大小为 f s u b f_{s u b} fsub = 33。

因此,91图像数据集可以分解为24,800个子图像,这些子图像是从原始图像中提取的,步幅为14.而ImageNet提供了超过500万个子图像,即使使用33的步幅也是如此。我们使用基本网络设置,即f1 = 9,f2 = 1,f3 = 5,n1 = 64,n2 = 32.我们使用Set5 [2]作为验证集。即使我们使用较大的Set14集[53],我们也观察到类似的趋势。升频因子为3.我们使用双三次插值和基于稀疏编码的方法[52]作为我们的基线,它们的平均PSNR值分别为30.39 dB和31.42 dB。

使用不同训练集的测试收敛曲线如图4所示。由于反向传播的数量相同,ImageNet上的训练时间与91-图像数据集上的训练时间大致相同。可以观察到,在相同数量的反向传播(即 8 × 1 0 8 8 \times 10^{8} 8×108)下,SRCNN + ImageNet达到32.52 dB,高于在91幅图像上训练的原始SRCNN产生的32.39 dB。结果肯定地表明,使用更大和更多样化的图像训练集可以进一步提高SRCNN性能。因此,在以下实验中,我们采用ImageNet作为默认训练集。

图4.使用更大的ImageNet数据集进行培训可提高使用91张图像的性能。

4.2 Learned Filters for Super-Resolution

图5显示了通过升级因子3在ImageNet上训练的学习的第一层滤波器的示例。请参考我们公布的升级因子2和4的实现。有趣的是,每个学习的滤波器都有其特定的功能。例如,滤波器g和h类似于拉普拉斯/高斯滤波器,滤波器a - e类似于不同方向上的边缘检测器,滤波器f类似于纹理提取器。

图5.该图显示了使用升级因子3在ImageNet上训练的第一层滤波器。滤波器基于它们各自的方差进行组织。

4.3 Model and Performance Trade-offs

基于基本网络设置(即f1 = 9,f2 = 1,f3 = 5,n1 = 64,n2 = 32),我们将逐步修改其中一些参数,以研究性能和速度之间的最佳平衡,研究性能与参数之间的关系。

4.3.1 Filter number

通常,如果我们以运行时间为代价增加网络宽度5,即增加更多过滤器,性能会提高。具体来说,根据我们的网络默认设置n1 = 64和n2 = 32,我们进行了两个实验:(i)一个是更大的网络,n1 = 128,n2 = 64,(ii)另一个是较小的网络,n1 = 32,n2 = 16.与4.1节类似,我们也在ImageNet上训练两个模型,并在Set5上用升级因子3进行测试。结果在表1中示出了 8 × 1 0 8 8 \times 10^{8} 8×108个反向传播。显然,通过增加宽度可以实现优异的性能。但是,如果需要快速恢复速度,则优选较小的网络宽度,这仍然可以实现比基于稀疏编码的方法(31.42 dB)更好的性能。

后面实验太多就不翻译了直接总结吧…

1.对比卷积核大小(filter size)、卷积核数量(filter numbers)对复原效果的影响的实验

结论:卷积核数量越多,即特征向量维数越高,实验效果越好,但是会影响算法速度,故需要综合考虑;另外三层卷积层的卷积核大小越大,实验效果也会略微更好,同样会影响算法速度。

2.对比网络层数(layer numbers)对复原效果的影响的实验

结论:并非网络越深,效果越好,结果恰恰相反。作者也给出了解释:因为SRCNN没有池化层和全连接层,导致网络对初始参数和学习率非常敏感,结果即网络训练的时候非常难以收敛,即使收敛了也可能停在了坏的局部最小值(bad local minimum)处,并且即使训练了足够的时间,学习到的filter参数的分散度也不够好。

3.与最前沿的其他超分算法对比速度与性能的实验

数据集选择的是ImageNet上的BSD200、Set14、Set5,对比对象是Bicubic、SC、NE+LLE、KK、ANR、A+与SRCNN。结果如下:

表2. Set5数据集上PSNR(dB),SSIM,IFC,NQM,WPSNR(dB)和MSSIM的平均结果。

表3:Set14数据集上的PSNR(dB),SSIM,IFC,NQM,WPSNR(dB)和MSSIM的平均结果。

表4 BSD200数据集上的PSNR(dB),SSIM,IFC,NQM,WPSNR(dB)和MSSIM的平均结果。

结论:
对于复原质量,SRCNN在大部分指标上都表现最好。超分辨率问题(SR)用PSNR作为重建的指标,但是高PSNR并不意味着重建结果好。因为SR是病态问题,这就意味着可能解有无穷多个。以MSE(等价于PSNR)为loss函数得到的解往往是这些可能解的平均,而不是最优解。这就导致以MSE为loss的SR算法得到的结果有些区域看起来过于模糊,缺乏应有的细节。这也是为什么出现了数值评估低,但肉眼看着效果更好的现象。故作者选择了很多项指标来评价复原图像的质量;
对于复原速度,前面提到卷积核大小会影响速度,故作者对比了三种不同卷积核大小的SRCNN与其他算法的速度,总的来说SRCNN的复原速度属于前列水平。

4.通道对复原效果影响的实验

结论:RGB通道联合训练效果最好;YCbCr通道下,Cb、Cr通道对性能提升基本无帮助,只基于Y通道的训练效果更好。

CONCLUSION

用于单图像超分辨率(SR)。我们表明,传统的基于稀疏编码的SR方法可以重新表述为深度卷积神经网络。所提出的方法SRCNN学习低分辨率图像和高分辨率图像之间的端到端映射,除了优化之外几乎没有额外的前/后处理。SRCNN采用轻质结构,性能优于最先进的方法。我们推测通过探索更多过滤器和不同的培训策略可以进一步提高性能。此外,所提出的结构具有简单性和鲁棒性的优点,可以应用于其他低级视觉问题,例如图像去模糊或同时SR +去噪。人们还可以调查网络以应对不同的升级因素。

相关推荐
©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页