SRCNN论文翻译(Image Super-Resolution Using Deep Convolutional Networks)

摘要

我们提出了一种单图像超分辨率(SR)的深度学习方法。我们的方法直接学习低/高分辨率图像之间的端到端映射。该映射表示为深度卷积神经网络(CNN),其将低分辨率图像作为输入并输出高分辨率图像。我们进一步表明,传统的基于稀疏编码的SR方法也可以被视为深度卷积网络。但与分别处理每个组件的传统方法不同,我们的方法共同优化所有层。我们的深层CNN具有轻质结构,同时展示了最先进的修复质量,并实现了实际在线使用的快速速度。我们探索不同的网络结构和参数设置,以实现性能和速度之间的权衡。此外,我们扩展我们的网络以同时处理三个颜色通道,并显示更好的整体重建质量。

1 INTRODUCTION

单图像超分辨率(SR)[18]旨在从单个低分辨率图像中恢复高分辨率图像,是计算机视觉中的经典问题。由于对于任何给定的低分辨率像素存在多种解决方案,因此该问题本质上是不合适的。换句话说,它是一个欠定的反问题,其解决方案并不是唯一的。通常通过强大的先验信息约束解空间来减轻这种问题。为了学习先前的技术,最新的方法大多采用基于实例的[47]策略。这些方法要么利用相同图像的内部相似性[5],[12],[15],[49],要么学习来自外部低分辨率和高分辨率范例对的映射函数[2],[4],[14], [21],[24],[42],[43],[49],[50],[52],[53]。外部示例性方法可以被制定用于通用图像超分辨率,或者可以被设计为根据提供的训练样本满足领域特定任务,即面部幻觉[30],[52]。

基于稀疏编码的方法[51],[52]是基于示例的外部示例的SR方法之一。该方法在其解决方案管道中涉及若干步骤。首先,从输入图像密集地裁剪重叠的块并进行预处理(例如,减去均值和归一化)。然后,这些补丁由低分辨率字典编码。稀疏系数被传递到高分辨率字典中以重建高分辨率补丁。重叠重建的补丁(例如,通过加权平均)以产生最终输出。这个流程由大多数基于外部实例的方法共享,它们特别注重学习和优化词典[2],[51],[52]或构建有效的映射函数[24],[42],[43], [49]。但是,流程中的其余步骤很少在统一优化框架中进行优化或考虑。

在本文中,我们表明上述流程相当于深度卷积神经网络[26](更多细节见第3.2节)。受此事实的启发,我们考虑一种卷积神经网络,它直接学习低分辨率图像和高分辨率图像之间的端到端映射。我们的方法与现有的基于外部示例的方法有根本的区别,因为我们的方法没有明确地学习字典[42],[51],[52]或流形[2],[4]来建模补丁空间。这些是通过隐藏层隐式实现的。此外,补丁提取和聚合也被公式化为卷积层,因此参与优化。在我们的方法中,整个SR流程完全通过学习获得,几乎没有预处理/后处理。

我们将所提出的模型命名为超分辨率卷积神经网络(SRCNN)1。拟议的SRCNN具有几个吸引人的特性。首先,它的结构在设计时考虑到了简单性,与最先进的基于实例的方法相比,提供了更高的精度。图1显示了一个例子的比较。第二,适度通过数量的滤波器和层,我们的方法实现了即使在CPU上实际在线使用的快速速度。我们的方法比许多基于示例的方法更快,因为它是完全前馈的,不需要解决任何优化使用问题。第三,实验表明,当(i)更大和更多样化的数据集可用时,和/或(ii)使用更大和更深的模型时,可以进一步改善网络的恢复质量。相反,较大的数据集/模型可能对现有的基于示例的方法提出挑战。此外,虽然大多数现有方法[12],[15],[23],[29],[38],[39],[42],[46],[48]和52不容易扩展,在处理彩色图像中的多个通道时,所提出的网络可以同时处理三个通道的彩色图像,以实现改善的超分辨率性能。

图1.提出的超分辨率卷积神经网络(SRCNN)仅通过一些训练迭代就超过了双三次基线,并且在适度训练的情况下优于基于稀疏编码的方法(SC)[52]。通过更多的训练迭代可以进一步提高性能。更多细节在第4.4.1节(具有升级因子3的Set5数据集)中提供。所提出的方法提供视觉上吸引人的重建图像。

总的来说,这项研究的贡献主要在于三个方面: 1)我们提出了一个完全卷积神经网络的图像超分辨率。网络直接学习低分辨率图像和高分辨率图像之间的端到端映射,除了优化之外几乎没有预处理/后处理。 2)我们建立了基于深度学习的SR方法与传统的基于稀疏编码的SR方法之间的关系。这种关系为网络结构的设计提供了指导。 3)我们证明深度学习在超分辨率的经典计算机视觉中是有用的,并且可以实现良好的质量和速度。

这项工作的初步版本已在前面提出[10]。目前的工作以重要的方式增加了初始版本。首先,我们通过在非线性映射层中引入更大的滤波器尺寸来改进SRCNN,并通过添加非线性映射层来探索更多结构。其次,我们扩展SRCNN以同时处理三个颜色通道(在YCbCr或RGB颜色空间中)。实验上,我们证明与单通道网络相比,性能可以得到改善。第三,在初始结果中增加了相当多的新分析和直观解释。我们还将原始实验从Set5 [2]和Set14 [53]测试图像扩展到BSD200 [32](200个测试图像)。此外,我们将与最近发布的一些方法进行比较,并确认我们的模型仍然优于使用不同评估指标的现有方法。

2 RELATED WORK

2.1 Image Super-Resolution

根据图像先验,单图像超分辨率算法可以分为四种类型 - 预测模型,基于边缘的方法,图像统计方法和基于补丁的(或基于示例的)方法。 Yang等人的研究[47]对这些方法进行了彻底的研究和评估。其中,基于实例的方法[15],[24],[42],[49]实现了最先进的性能。

基于内部示例的方法利用属性自相似性并从输入图像生成示例性补丁。它首先在Glasner的工作中提出[15],并提出了几种改进的变体[12],[48]来加速实施。基于外部实例的方法[2],[4],[14],[42],[50],[51],[52],[53]学习和映射低/ 。这些研究在如何学习紧凑字典或流形空间以关联低/高分辨率补丁以及如何在这样的空间中执行表示方案方面存在差异。在Freeman等人的先驱工作中。 [13],字典直接表示为低/高分辨率的补丁对,输入补丁的最近邻居(NN)位于低分辨率空间,其相应的高分辨率补丁用于重建。Chang等。 [4]引入了流形嵌入技术作为NN策略的替代方案。在Yang等人的着作[51],[52]中,上述NN对应进展到更复杂的稀疏编码公式。提出了其他映射函数,如核回归[24],简单函数[49]和锚定邻域回归[42],[43],以进一步提高映射精度和速度。基于稀疏编码的方法及其若干改进[42],[43],[50]是目前最先进的SR方法之一。在这些方法中,补丁是优化的重点;补丁提取和聚合步骤被视为前/后处理并单独处理。

大多数SR算法[2],[4],[14],[42],[50],[51],[52],[53]专注于灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转换为不同的颜色空间(YCbCr或YUV),并且仅在亮度通道上应用SR。由于亮度通道和色度通道之间固有的不同特性,这些方法很难直接扩展到高维数据。还有尝试同时超级解析所有通道。例如,Kim和Kwon [24]和Dai等人。 [6]将他们的模型应用于每个RGB通道并将它们组合以产生最终结果。然而,他们都没有分析不同频道的性能,以及恢复所有三个频道的必要性。

2.2 Convolutional Neural Networks

卷积神经网络(CNN)可以追溯到几十年前[26],深度CNN最近表现出爆炸性的普及,部分原因在于它在图像分类方面的成功[17],[25]。它们也已成功应用于其他计算机视觉领域,如物体检测[34],[41],[54],人脸识别[40]和行人检测[35]。在这一进展中,有几个因素至关重要:(i)现代功能强大的GPU的有效培训实施[25],(ii)整流线性单元(ReLU)[33]的提议,它使收敛更快,同时仍然表现良好质量[25],以及(iii)轻松访问大量数据(如ImageNet [8]),用于培训大型模型。我们的方法也受益于这些进步。

2.3 Deep Learning for Image Restoration

已经有一些使用深度学习技术进行图像恢复的研究。多层感知器(MLP),其所有层都是完全连接的(与卷积相反),用于自然图像去噪[3]和后去模糊去噪[36]。与我们的工作更密切相关的是,卷积神经网络应用于自然图像去噪[20]并去除噪声模式(污垢/雨)[11]。这些恢复问题或多或少都是去噪驱动的。崔等人。 [5]建议在基于内部示例的方法[15]的概念中将自动编码器网络嵌入其超分辨率流水线中。深度模型并非专门设计为端到端解决方案,因为级联的每个层都需要独立优化自相似性搜索过程和自动编码器。相反,提出的SRCNN优化了端到端映射。

3 CONVOLUTIONAL NEURAL NETWORKS FOR SUPER-RESOLUTION

3.1 Formulation

考虑一个低分辨率图像,我们首先使用双三次插值将其放大到所需的大小,这是我们执行的唯一预处理3。让我们将插值图像表示为Y.我们的目标是从Y中恢复与地面实况高分辨率图像X尽可能相似的图像F(Y)。为了便于呈现,我们仍称Y为“低分辨率的“图像,虽然它与X具有相同的大小。我们希望学习映射F,它在概念上由三个操作组成:
1)补丁提取和表示:该操作从低分辨率图像Y中提取(重叠)补丁,并将每个补丁表示为高维向量。这些向量包括一组特征图,其数量等于向量的维数。
2)非线性映射:该操作是每个高维向量到另一个高维向量的非线性映射。每个映射的矢量在概念上是高分辨率补丁的表示。这些向量包括另一组特征映射。
3)重建:该操作聚合高分辨率补丁表示以生成最终的高分辨率图像。预计该图像与地面实况X相似。

我们将证明所有这些操作形成卷积神经网络。图2中描述了网络的概述。接下来,我们详细说明了每个操作的定义。

图2.给定低分辨率图像Y,SRCNN的第一卷积层提取一组特征图。第二层将这些特征映射非线性地映射到高分辨率补丁表示。最后一层组合空间邻域内的预测以产生最终的高分辨率图像F(Y)。

3.1.1 Patch extraction and representation

图像恢复中的流行策略(例如,[1])是密集地提取补丁,然后通过一组预先训练的基础(例如PCA,DCT,Haar等)来表示它们。这相当于通过集合卷积图像。过滤器,每个过滤器都是基础。在我们的表述中,我们将这些基础的优化包括在网络的优化中。形式上,我们的第一层表示为操作F1:
F 1 ( Y ) = max ⁡ ( 0 , W 1 ∗ Y + B 1 ) F_{1}(\mathbf{Y})=\max \left(0, W_{1} * \mathbf{Y}+B_{1}\right) F1(Y)=max(0,W1Y+B1)
其中W1和B1分别代表滤波器和偏置。这里W1的大小为c * f1 * f1 * n1,其中c是输入图像中的通道数,f1是滤波器的空间大小,n1是滤波器的数量。很明显,W1在图像上应用n1个卷积,每个卷积的内核大小为c * f1 * f1 。输出由n1个特征映射组成。 B1是n1维向量,其每个元素与滤波器相关联。我们在滤波器响应4上应用整流线性单元(ReLU,max(0,x))[33]。

3.1.2 Non-linear mapping 非线性映射

第一层为每个补丁提取n1维特征。在第二操作中,我们将这些n1维向量中的每一个映射为n2维向量。这相当于应用具有平凡空间支持1 x 1的n2滤波器。此解释仅适用于1 x 1过滤器。但是很容易推广到像3 x 3或5 x 5这样的大型滤波器 。在那种情况下,非线性映射不是输入图像的补丁; 相反,它是在3 x 3或5 x 5特征图的“补丁”。第二层的操作是:
F 2 ( Y ) = max ⁡ ( 0 , W 2 ∗ F 1 ( Y ) + B 2 ) F_{2}(\mathbf{Y})=\max \left(0, W_{2} * F_{1}(\mathbf{Y})+B_{2}\right) F2(Y)=max(0,W2∗<

  • 23
    点赞
  • 109
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值