【图像超分辨率】Multi-scale Residual Network for Image Super-Resolution

摘要

最近的研究表明,深度神经网络可以显著提高单幅图像超分辨率的质量。目前的研究倾向于使用更深的卷积神经网络来提高性能。然而,盲目地增加网络的深度并不能有效地改善网络。更糟糕的是,随着网络深度的增加,训练过程中出现的问题也越来越多,需要更多的训练技巧。
在本文中,我们提出了一种新型的多尺度残差网络(MSRN)来充分挖掘图像特征,它的性能优于大多数最先进的方法。基于残差块,我们引入不同大小的卷积核来自适应地检测不同尺度的图像特征。同时,我们让这些特征相互作用,以获得最有效的图像信息,我们称这种结构为多尺度残差块(MSRB)。此外,每个MSRB的输出都会被用作全局特征融合的层次特征。最后,所有这些特征被送到重建模块,以恢复高质量的图像

1 介绍

作者从重构实验开始,如重建了一些经典的SR模型,如SRCNN [1], EDSR[9]和SRResNet[8],发现现有的SR模型存在以下问题:

  • 很难复现:大多数高级模型对网络的细微变化敏感,需要很高的训练技巧,同样的模型也可以通过使用不同的训练技巧实现不同的性能,如权重初始化、梯度截断。数据规范化等。而其性能的提高很大程度是依赖与训练的技巧,而不是模型。
  • 架构的改变特征利用不足:大多数方法为了提高网络的性能而盲目地增加网络的深度,而忽略了充分利用LR图像的特征。随着网络深度的增加,特征在传输过程中逐渐消失。如何充分利用这些特征,是网络重构高质量图像的关键。
  • 可扩展性不足:对LR图像进行预处理再输入,增加了计算复杂性而且会产生可见的伪影;最近的方法直接在LR图像放大重建,但其SR模型很难适应任意的缩放因子。

本文对应的解决方案

  • 对于问题1,作者的模型不需要特殊的权重初始化方法或其他训练技巧;
  • 对于问题2,提出多尺度残差块MSRB(以检测不同尺度下的特征,3.1节)和分级特征融合结构HFFS(充分利用输入图像的特征并有益于重构,3.2节);
  • 对于问题3,作者设计了一种良好的图像重构结构,它可以很容易地扩展到任何向上扩展的因子,只需进行少量调整(3.2节和3.3节)。

本文提出了一种新的多尺度残差网络(MSRN)来充分利用图像的特征:

  • (1)使用MSRB来获取不同尺度的图像特征(局部多尺度特征)。
  • (2)将每个MSRB的输出组合起来进行全局特征融合。
  • (3)将局部多尺度特征与全局特征相结合,最大限度地利用LR图像特征,彻底解决特征在传输过程中消失的问题。
  • (4)引入了一个以1×1卷积核为瓶颈层用于获得全局特征融合。
  • (5)本文还设计了一个简单而高效重建结构可以很容易地实现多尺度的放大。

本文的贡献

  • 与以往的工作不同,本文提出了一种新型的多尺度残差块(MSRB),它不仅可以自适应地检测图像特征,还可以实现不同尺度的特征融合。这是第一个基于残差结构的多尺度模块,易于训练并超越现有的模块。
  • 将本文的工作扩展到计算机视觉任务中,结果超过了那些没有深层网络结构的SISR的最先进方法。此外,MSRB还可以用于其他修复任务中的特征提取。
  • 本文提出了一个简单的分层特征融合(HFFS)和图像重建的架构。它可以很容易地扩展到任何升级因子。

2 相关工作

2.1 单图像的超分辨率(Single-image Super-resolution)

这部分对此前的网络模型,如SRCNN、FSRCNN、ESPCN、DRCN、DRNN、LapSRN、SRResNet和EDSR,这些网络模型越来越深并且难以训练。
在这里插入图片描述

2.2 特征提取块(Feature Extraction Block)

基于残差结构,本文引入了不同大小的卷积核,用于自适应检测不同尺度下的图像特征。同时,不同尺度的特征之间采用跳转连接,使特征信息可以相互共享和重用。这有助于充分挖掘图像的局部特征。此外,块末的1×1卷积层可以作为瓶颈层,有助于特征融合,降低计算复杂度。

3 提出的方法

低分辨率图像LR由高分辨率图像HR经过双三次插值得到,将图像转换为YCrCb彩色图像但值在Y通道上训练图像,对于颜色通道为C的图像,其卷积大小为W×H×C

最终目标是要学习低分辨率到高分辨率的映射函数,给定训练集要解决以下问题:
在这里插入图片描述
本文使用的损失函数为L1函数,定义如下:
在这里插入图片描述

图2是本文提出的模型的结构,将LR图像作为输入,通过网络直接上采样到高分辨率空间。模型可以分为两部分:特征提取模块和图像重建模块。其中,特征提取模块由多尺度残差块(MSRB)和层次特征融合结构(HFFS)两种结构组成。
在这里插入图片描述
网络的详细描述:使用LR图像直接作为输入。

  1. 第一层卷积 M_0,M0​ 是用做初步的特征提取
  2. 之后的M1​到Mn​ 的内部结构是一模一样的,使用3×3和5×5卷积核进行多尺度特征提取,然后每个Mi−1​ 到 Mi​使用残差连接,构成MSRB块,其包括多尺度特征融合和局部残差学习。(这是文章最重要的部分,就是多尺度的概念,这里的多尺度指的是卷积核大小)
  3. 然后,将每个 Mi​ 的输出进行融合,使用1x1卷积将融合到的特征通道压缩成我们 要的通道数量(与想要重建图像的大小有关),即层次特征融合结构(HFFS)
  4. 最后,使用PixelShuffle(像素重组)ESPCN里的技术将图像扩大尺寸,再经过一个卷积层,得到最后的重建图像。

3.1 多尺度残差块(MSRB)

为了检测出不同尺寸的图像特征,本文提出了多尺度残差块(MSRB),包括两个部分:多尺度特征融合和局部残差学习。
在这里插入图片描述
设M表示送到MSRB的特征图的数量(即通道数),因此:

  1. 第一个卷积层的输入和输出有M个通道,经过concat融合后(将3x3和5x5的卷积层的输出通道串联起来)
  2. 则第二个卷积层输入或输出有 2M 个通道;
  3. 然后再经过concat融合后,得到 4M 个通道 ,送到一个1×1 卷积层将这些特征映射的数量(通道的数量)减少到 M。
  4. 最后,将MSRB块的输入残差连接到其输出(即残差连接,使得计算复杂度大大降低,有利于提高网络的效率)。
    其中,1、2、3为多尺度特征融合;4为局部残差学习。
    最终,MSRB的输入和输出具有相同数量的特征映射(即相同的通道数量)
多尺度特征融合(Multi-scale Features Fusion)

本文构建了一个双路网络(two-bypass network),不同的路径使用不同的卷积核,这样一来,这些路径之间的信息可以相互共享,从而能够检测不同尺度的图像特征,该操作可以定义为
在这里插入图片描述
将输入MSRB的特征图的数量设为为M个,所以第一卷积层的输入和输出有M个特征图,而第二卷积层的输入或输出都有2M个特征图。所有这些特征图都会被连在一起,然后送到一个1×1的卷积层。这一层将这些特征图的数量减少到M,因此MSRB的输入和输出具有相同数量的特征图。这种独特的架构允许多个MSRB一起使用。

局部残差学习(Local Residual Learning)

为了使网络更加复杂,在MSRB中采用了残差学习,进一步将多尺度残差块描述为:
在这里插入图片描述

Mn和Mn-1分别表示MSRB的输入和输出,上式的运算是通过捷径连接和元素的方式进行的。局部残差学习的使用使得计算复杂度大大降低,同时,网络的性能也得到了提高。

3.2 层次特征融合结构(HFFS)

对于SISR问题,输入和输出图像是高度相关的;随着网络深度的增加,图像的特征在传输过程中逐渐消失,可使用跳跃连接这一最简单、最有效的方法来解决这样问题;随着深度的增加,网络的空间表达能力逐渐下降,而语义表达能力逐渐增强;每个MSRB的输出都包含不同的特性。因此,作者提出了一个简单的分级特征融合结构(HFFS),将MSRB的所有输出发送到网络的末端进行重构。但带来两个问题:

  1. MSRB的输出特征图包含了大量的冗余信息
  2. 直接将它们用于重构会大大增加计算复杂度
    所以, 连接( concatenation)操作之后,再使用具有1×1内核的卷积层,以自适应地从这些层次化特征中提取有用的信息。
    在这项工作中,本文利用了一种简单的层次化特征融合结构,将MSRB的所有输出发送到网络的末端进行重建。一方面,这些特征图包含大量的冗余信息,另一方面,直接使用它们进行重建将大大增加计算复杂度。为了自适应地从这些分层特征中提取有用的信息,我们引入了一个瓶颈层,这对于1×1内核的卷积层来说是必不可少的。层次特征融合结构(HFFS)的输出可以表述为:
    在这里插入图片描述
    其中Mi表示第i个MSRB的输出,[M0,M1,M2…Mn]表示级联操作。

3.3 图像重建(Image Reconstruction)

之前的工作非常重视学习LR和HR图像之间的映射函数,将LR图像通过双立方上采样到与HR相同的维度。然而,这种方法引入了冗余信息,增加了计算复杂性。受其启发,最近的工作倾向于使用未经放大的LR作为输入图像来训练一个可以直接上采样到HR维度的网络。相反,很难找到一个SR模型,它只需对网络架构进行微小的调整,就能迁移到任何上采样因子。而且,这些网络大多倾向于一个固定的上采样因子(x4),没有给出迁移到其他上采样因子的具体指令。
在这里插入图片描述
PixelShuffle[2]和解卷积层在SISR任务中应用广泛。如图4所示,有几种常见的重建模块。以升标因子为×4为例,这些模块均采用pixelShuffle或解卷积操作,以升标因子2为基准,逐步重建SR图像。然而,随着升标因子的增加(如×8),网络变得更深,伴随着更多不确定的训练问题。此外,这些方法不能在奇数的升标因子上工作,而人们可能会期望升标因子的缓慢增长(如×2,×3,×4,×5),而不是指数增长。

为此,我们提出了一种新的重建模块(图4(ours)),这是一种简单、高效、灵活的结构。多亏了pixelshuffle[2],我们的模块可以通过轻微的调整迁移到任何上调因子。在表1.中,我们提供了关于重建结构的详尽配置信息。在网络中,对于不同的升标因子,只需要改变M的值,其变化可以忽略不计。实验表明,这种结构在不同的升标因子上表现良好。
在这里插入图片描述

4 实验

训练和测试都是在YCbCr的亮度通道进行,上采样因子为×2,×3,×4,×8

我们通过三种方式对训练数据进行增强。(1)缩放(2)旋转(3)翻转。在每个训练批次中,我们随机提取16个LR补丁,大小为64×64,一个epoch有1000次反传播的迭代。用ADAM优化器[22]训练我们的模型,设置学习率lr=0.0001。在我们的最终模型中,使用8个多尺度残差块(MSRB,N = 8),每个MSRB的输出有64个特征图。同时,每个瓶颈层(1×1卷积层)的输出有64个特征图。

MSRB的优点:多尺度残差块可以自适应地检测不同尺度的图像特征,充分挖掘图像的潜在特征。如图9所示,我们将这些特征提取块的输出可视化。值得注意的是,激活是稀疏的(大多数值为零,如黑色所示的可视化),一些激活图可能全部为零。很明显,MSRB的输出包含了更多有效的激活图,这进一步证明了该结构的有效性。

增加MSRB数量的好处:增加网络的深度可以有效提高性能。在本工作中,增加MSRB的数量是获得优良效果的最简单方法。MSRN性能随着MSRBs数量的增长而迅速提高。虽然使用更多的MSRB,网络性能会进一步提升,但这会导致网络更加复杂。在权衡网络性能和网络复杂度的同时,我们最终使用了8个MSRB,结果与EDSR接近,但模型参数数量只有它的七分之一。

总结

  1. 为了自适应检测不同尺度的图像特征,作者提出了一种高效的多尺度残差块
  2. 为了充分利用输入图像的多层次特征并有益于重构,提出了分级特征融合结构HFFS
  3. 为了很容易的向上扩展任意因子,作者利用PixelShuffle(像素重组)设计了一种新的重构模块

结合三个模块,作者提出了多尺度残差网络(multi-scale residual network, MSRN),获得准确的SR图像。

该模型比最先进的EDSR方法轻量许多(网络的层数,深度,参数都比EDSR小很多),却达到了与之相称的性能。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值