EDSR:Enhanced Deep Residual Networks for Single Image Super-Resolution翻译学习笔记

·如烟·

已于 2023-07-26 17:47:41 修改

阅读量204

点赞数 1

文章标签：神经网络深度学习

于 2020-01-28 22:09:14 首次发布

本文链接：https://blog.csdn.net/weixin_43478836/article/details/104102756

版权

在这里插入图片描述

Abstract

随着深度卷积神经网络（DCNN）的发展，有关超分辨率的最新研究已经取得了进展。特别地，残余学习技术表现出改进的性能。在本文中，我们开发了一种性能增强的深层超分辨率网络（EDSR），其性能超过了当前最新的SR方法。我们模型的显着性能改进归因于通过删除常规残差网络中不必要的模块进行的优化。通过扩大模型大小，同时稳定训练过程，可以进一步提高性能。我们还提出了一种新的多尺度深度超分辨率系统（MDSR）和训练方法，该方法可以在单个模型中重建不同放大因子的高分辨率图像。所提出的方法在基准数据集上表现出优于最新方法的性能，并通过赢得NTIRE2017超级分辨率挑战赛[26]证明了其卓越性能。

1. Introduction

图像超分辨率（SR）问题，尤其是单图像超分辨率（SISR）问题，数十年来一直受到越来越多的研究关注。 SISR旨在从单个低分辨率图像ILR重建高分辨率图像ISR。通常，ILR和原始高分辨率图像I HR之间的关系可以根据情况而变化。许多研究假设ILR是IHR的双三次降采样版本，但实际应用中也可以考虑其他降级因素，例如模糊，抽取或噪声。最近，深度神经网络[11，12，14]在SR问题中的峰值信噪比（PSNR）方面提供了显着改善的性能。但是，此类neworks在体系结构优化方面存在局限性。

首先，神经网络模型的重建性能对较小的体系结构更改敏感。同样，同一模型通过不同的初始化和训练技术也可以达到不同的性能水平。因此，精心设计的模型架构和复杂的优化方法对于训练神经网络至关重要。

其次，大多数现有的SR算法将不同比例因子的超分辨率视为独立问题，而不考虑和利用SR中不同比例之间的相互关系。这样，那些算法需要

其次，大多数现有的SR算法将不同比例因子的超分辨率视为独立问题，而不考虑和利用SR中不同比例之间的相互关系。这样，那些算法需要许多规模特定的网络，这些网络需要独立训练以应对各种规模。例外地，VDSR [11]可以在单个网络中共同处理几个尺度的超分辨率。用多个尺度训练VDSR模型可以显着提高性能，并且胜过特定于尺度的训练，这意味着在特定尺度模型之间存在冗余。尽管如此，VDSR风格的体系结构要求使用双三次插值图像作为输入，与采用比例特定的上采样方法的体系结构相比，这会导致计算时间和内存增加[5，22，14]。
在这里插入图片描述
尽管SRResNet [14]以良好的性能成功解决了那些时间和内存问题，但它只是采用了He等人的ResNet体系结构。 [9]无需太多修改。但是，提出了原始的ResNet来解决更高级别的计算机视觉问题，例如图像分类和检测。因此，将ResNet架构直接应用于低级视觉问题（例如超分辨率）可能不是最佳选择。
为了解决这些问题，基于SRResNet架构，我们首先通过分析和删除不必要的模块以简化网络架构来对其进行优化。当模型很复杂时，训练网络变得很重要。因此，我们在训练时训练具有适当损失函数和仔细模型修改的网络。我们通过实验表明，修改后的方案可产生更好的结果。
其次，我们研究了模型训练方法，该方法从其他规模的训练模型中转移知识。为了在训练过程中利用与规模无关的信息，我们从预先训练的低尺度模型训练了大规模模型。此外，我们提出了一种新的多尺度体系结构，该体系结构在不同尺度上共享大多数参数。
与多个单尺度模型相比，提出的多尺度模型使用的参数要少得多，但显示出
可比的性能。我们在标准基准数据集和新提供的DIV2K数据集上评估模型。拟议的单尺度和多尺度超分辨率网络在PSNR和SSIM方面显示了所有数据集的最新性能。在NTIRE 2017年超分辨率挑战赛中，我们的方法分别排名第一和第二[26]。

2. Related Works

为了解决超分辨率问题，早期的方法使用基于采样理论的插值技术[1，15，34]。但是，这些方法在预测详细逼真的纹理方面存在局限性。先前的研究[25，23]对该问题采用了自然图像统计来重建更好的高分辨率图像。
高级作品旨在学习I LR和IHR图像对之间的映射功能。这些学习方法依赖于从邻居嵌入[3、2、7、21]到稀疏编码[31、32、27、33]的技术。杨等。 [30]介绍了另一种方法，该方法将补丁空间聚类并学习相应的功能。一些方法利用图像自相似性来避免使用外部数据库[8、6、29]，并通过补丁的几何变换来增加有限的内部字典的大小[10]。
最近，深度神经网络的强大功能已导致SR的显着改善。由于董等。 [4，5]首先提出了一种基于深度学习的SR方法，针对SR研究了各种CNN体系结构。 Kim等。 [11，12]首先介绍了残差网络，用于训练更深的网络架构，并实现了卓越的性能。特别是，他们表明，跳过连接和递归卷积减轻了超分辨率网络中承载身份信息的负担。类似于[20]，毛等。 [16]用编码器-解码器网络和对称跳过连接解决了一般的图像恢复问题。在[16]中，他们认为那些嵌套的跳过连接提供了快速且改进的收敛性。
在许多基于深度学习的超分辨率算法中，输入图像通过三次三次插值进行升采样，然后再馈入网络[4、11、12]。除了使用插值图像作为输入之外，还可以在网络的最末端训练升采样模块，如图[5、22、14]所示。通过这样做，由于特征的尺寸减小，因此可以减少大量计算而不会损失模型容量。但是，这些方法有一个缺点：它们不能像VDSR [11]那样在单个框架中处理多尺度问题。在这项工作中，我们解决了多尺度训练和计算效率的难题。我们不仅利用每种尺度的学习特征之间的相互关系，而且提出一种新的多尺度模型，该模型可以有效地重建各种尺度的高分辨率图像。此外，我们开发了一种适用于单尺度和多尺度模型的多种尺度的合适训练方法。
一些研究还集中在损失函数上，以更好地训练网络模型。均方误差（MSE）或L2损失是用于一般图像恢复的最广泛使用的损失函数，也是解决这些问题的主要性能指标（PSNR）。然而，赵等。 [35]报告说，与其他损失函数相比，在PSNR和SSIM方面，具有L2损失的训练不能保证更好的性能。在他们的实验中，与使用L2训练的网络相比，使用L1训练的网络实现了更高的性能。

3. Proposed Methods

更高的计算效率的同时还胜过原始网络。在以下各节中，我们建议处理单个超分辨率尺度的单尺度体系结构（EDSR）和在单个模型中重构各种尺度的高分辨率图像的多尺度体系结构（MDSR）。

3.1. Residual blocks

最近，残差网络[11、9、14]在从低级任务到高级任务的计算机视觉问题中均表现出出色的性能。虽然勒迪格等。 [14]成功地将ResNet架构应用于SRResNet的超分辨率问题，我们通过采用更好的ResNet结构进一步提高了性能。
在这里插入图片描述
在图2中，我们比较了原始ResNet [9]，SRResNet [14]和我们提出的网络中每个网络模型的构建块。如Nah等人[19]所示，我们从网络中删除了批量归一化层。在他们的图像去模糊工作中呈现。由于批归一化层对特征矩阵进行了归一化，因此通过对功能进行归一化，它们限制了网络的范围灵活性，因此最好将其删除。我们实验表明，这种简单的修改实质上提高了性能，如第4节中所述。
此外，由于批处理归一化层消耗的内存量与前面的卷积层相同，因此GPU的内存使用量也得到了充分降低。与SRResNet相比，我们的没有批处理归一化层的基准模型在培训期间节省了大约40％的内存使用量。因此，在有限的计算资源下，我们可以建立一个比常规ResNet结构具有更好性能的更大模型。
在这里插入图片描述

3.2. Single-scale model

增强网络模型性能的最简单方法是增加参数数量。在卷积神经网络中，可以通过堆叠许多层或增加过滤器数量来增强模型性能。具有深度（层数）B和宽度（特征通道数）F的常规CNN架构大致占用具有O（BF2）参数的O（BF）内存。因此，当考虑有限的计算资源时，增加F而不是B可使模型容量最大化。
但是，我们发现将特征图的数量增加到一定水平以上将使训练过程在数值上不稳定。 Szegedy等人报道了类似的现象。 [24]。我们通过采用因子为0.1的残差标度[24]解决此问题。在每个残差块中，恒定缩放比例层位于最后的卷积层之后。当使用大量过滤器时，这些模块极大地稳定了训练过程。在测试阶段，该层可以集成到先前的卷积层中，以提高计算效率。
我们使用图2中提出的残差块构建基线（单尺度）模型。该结构类似于SRResNet [14]，但是我们的模型在残差块之外没有ReLU激活层。同样，我们的基准模型没有剩余的缩放层，因为我们每个卷积层仅使用64个特征图。在最终的单尺度模型（EDSR）中，我们通过设置B = 32，F = 256和比例因子0.1来扩展基线模型。模型架构如图3所示。
当训练我们的模型的上采样因子×3和×4时，我们使用预训练的×2网络初始化模型参数。如图4所示，这种预训练策略可以加快训练速度并改善最终性能。对于放大4倍，如果我们使用训练前的比例2模型（蓝线），则训练的收敛速度将比训练2快得多。从随机初始化（绿线）开始
在这里插入图片描述

3.3. Multi-scale model

从图4的观察中，我们得出结论，多尺度的超分辨率是相互关联的任务。我们通过构建多尺度体系结构（如VDSR [11]）充分利用尺度间相关性的优势，进一步探索这一思想。我们将基准（多尺度）模型设计为具有一个B = 16个残差块的主分支，以便大多数参数在不同尺度上共享，如图5所示。
在我们的多尺度体系结构中，我们引入了特定于尺度的处理模块来处理多个尺度的超分辨率。首先，预处理模块位于网络的开头，以减少来自不同比例的输入图像的差异。每个预处理模块均包含两个具有5×5内核的残差块。通过为预处理模块采用更大的内核，我们可以使特定于比例的部分保持较浅，而在网络的早期阶段则覆盖了较大的接收范围。在多尺度模型的末尾，并行放置特定于尺度的上采样模块以处理多尺度重建。上采样模块的体系结构与上一节中描述的单尺度模型的体系结构相似。
我们用以下公式构建最终的多尺度模型（MDSR）：B = 80，F =64。虽然我们针对3个不同尺度的单尺度基线模型每个都有约150万个参数，总计450万个参数，但我们的基线多尺度模型只有320万个参数。然而，多尺度模型表现出与单尺度模型相当的性能。此外，我们的多尺度模型在深度方面具有可扩展性。尽管最终MDSR的深度是基线多尺度模型的约5倍，但所需参数却只有2.5倍，因为残差区块比尺度轻。具体部分。注意，MDSR还显示了与特定规模EDSR相当的性能。表2和表3给出了我们提出的模型的详细性能比较。
在这里插入图片描述

4. Experiments

4.1. Datasets

DIV2K数据集[26]是新提出的用于图像恢复任务的高质量（2K分辨率）图像数据集。 DIV2K数据集包含800个训练图像，100个验证图像和100个测试图像。由于未发布测试数据集的真实情况，因此我们报告并比较验证数据集的性能。我们还比较了四个标准基准数据集的性能：Set5 [2]，Set14 [33]，B100 [17]和Urban100 [10]。

4.2. Training Details

为了进行训练，我们将LR图像中大小为48×48的RGB输入色块与相应的HR色块一起使用。我们通过随机的水平翻转和90旋转来扩充训练数据。我们通过减去DIV2K数据集的平均RGB值来预处理所有图像。我们通过设置β1= 0.9，β2= 0.999和= 10-8来使用ADAM优化器[13]训练模型。我们将minibatch的大小设置为16。学习率初始化为10−4，每2×105 minibatch更新将学习速度减半。
对于单尺度模型（EDSR），我们按照第2节中所述训练网络。 3.2。 ×2模型是从头开始训练的。模型收敛后，我们将其用作其他规模的预训练网络。
在每次训练更新时，都会使用多尺度模型（MDSR），我们用×2，×3和×4之间的随机选择比例构造小批量生产。仅启用和更新与所选比例对应的模块。因此，与所选标度之外的不同标度相对应的标度特定的残差块和上采样模块不被启用或更新。
我们使用L1损失而不是L2来训练网络。通常优选最小化L2，因为它可使PSNR最大化。但是，基于一系列实验，我们凭经验发现L1损失提供的收敛性优于L2。在第二节中提供了此比较的评估。 4.4
我们使用Torch7实现了拟议的网络框架并使用NVIDIA Titan X GPU对其进行了训练。分别训练EDSR和MDSR分别需要8天和4天。源代码可在线公开获得。

4.3. Geometric Self-ensemble

为了最大化模型的潜在性能，我们采用类似于[28]的自集成策略。在测试期间，我们翻转并旋转输入图像ILR，以为每个样本生成七个增强输入，其中Ti表示8个几何变换，包括恒等。使用这些增强的低分辨率图像，我们生成相应的超分辨图像。然后，我们对这些输出图像应用逆变换以获得原始图片。最后，我们将转换后的输出平均在一起，以得出如下自律结果。
在这里插入图片描述
这种自集成方法相对于其他ensembles具有优势，因为它不需要单独训练单独的模型。当模型大小或训练时间很重要时，这尤其有益。尽管自集成策略使参数总数保持不变，但我们注意到，与需要单独训练模型的常规模型集成方法相比，该方法可提供大约相同的性能增益。我们通过在方法名称后添加“ +”后缀来表示使用自集成方法；即EDSR + / MDSR +。请注意，geometric self-ensemble仅对对称下采样方法（例如双三次下采样）有效。

4.4. Evaluation on DIV2K Dataset

我们在DIV2K数据集上测试了我们提出的网络。从SRResNet开始，我们逐渐更改各种设置以执行消融测试。我们自己训练SRResNet [14]。 2 3首先，将损失函数从L2更改为L1，然后按照上一节中的描述对网络架构进行改革，并在表1中进行了总结。
在此实验中，我们对所有这些模型进行了3×105的更新训练。使用PSNR和SSIM标准对DIV2K验证集的10张图像进行评估。为了进行评估，我们使用完整的RGB通道，并忽略了边框的（6 +比例）像素。
表2给出了定量结果。对于所有比例因子，使用L1训练的SRResNet的结果要比使用L2训练的原始结果更好。网络的修改带来更大的改进余地。表2的最后两列显示了采用Geometric Self-ensemble技术的最终更大模型EDSR +和MDSR +的显着性能提升。请注意，由于我们的模型没有批处理规范化层，因此它们需要的GPU内存要少得多。
在这里插入图片描述

4.5. Benchmark Results

我们在表3中提供了基于公共基准数据集的最终模型（EDSR +，MDSR +）的定量评估结果。最后两列还提供了对自集成的评估。我们使用批次大小为16的106个更新来训练模型。我们将其他设置与基准模型保持相同。我们将模型与包括A + [27]，SRCNN [4]，VDSR [11]和SRResNet [14]在内的最新方法进行比较。为了进行比较，我们在y通道上测量PSNR和SSIM，并忽略了与边界相同比例的像素。我们使用MATLAB [18]函数进行评估。还提供了DVI2K数据集的比较结果。与其他方法相比，我们的模型显示出重大改进。进行自我合奏后，差距进一步增大。我们还在图6中给出了定性结果。与先前的工作相比，所提出的模型成功地重建了HR图像中的详细纹理和边缘，并展现了更好看的SR输出。

5. NTIRE2017 SR Challenge

最初提出这项工作是为了参加NTIRE2017超分辨率挑战赛[26]。挑战在于开发具有最高PSNR的单图像超分辨率系统。
在挑战中，存在两个针对不同下采样器（双三次下采样，未知）的赛道，每个赛道具有三个下采样比例（×2、3、4）。未知赛道的输入图像不仅会缩小比例，还会遭受严重的模糊。
因此，需要更强大的机制来处理第二赛道。我们为每次比赛提交了两个SR模型（EDSR和MDSR），并证明了我们的该算法对于不同的下采样条件非常健壮。我们的算法在未知下采样赛道上的一些结果如图7所示。我们的方法从严重降级的输入图像中成功重建了高分辨率图像。我们提出的EDSR +和MDSR +分别以表4所示的优异性能赢得了第一和第二名。

6. Conclusion

在本文中，我们提出了一种增强的超分辨率算法。通过从传统的ResNet架构中删除不必要的模块，我们可以在使模型紧凑的同时获得改进的结果。我们还采用残差缩放技术来稳定地训练大型模型。我们提出的单比例模型超越了当前模型，并实现了最新的性能。
此外，我们开发了一个多尺度的超分辨率网络以减少模型大小和训练时间。借助与比例相关的模块和共享的主网络，我们的多比例模型可以在一个统一的框架中有效处理各种比例的超分辨率。尽管与一组单比例模型相比，多比例模型保持紧凑，但它的性能与单比例SR模型相当。
我们提出的single-scale and multi-scale模型在标准基准数据集和DIV2K数据集中均排名最高。
在这里插入图片描述