论文研读——Deep Networks for Image Super-Resolution with Sparse Prior

论文研讨

#题目:Deep Networks for Image Super-Resolution with Sparse Prior
——Zhaowen Wang, Ding Liu, Jianchao Yang
Wei Han† Thomas Huang,Beckman Institute, University of Illinois at Urbana-Champaign, Urbana, IL Adobe Research, San Jose, CA Snapchat, Venice, CA

Abstract

深度学习技术已成功地应用于计算机视觉的许多领域,包括低层次图像恢复问题。对于超分辨问题,已经提出了几种基于深度神经网络的模型,取得了优越性能。但大容量和大数据模型已经成为超分辨率问题的主要解决方案。
在本文中,认为传统的稀疏编码模型所代表的的领域专长仍然是有价值的,在跟深度学习的关键成分相结合后可以的都进一步的改进结果。
因此提出了一个特别为超分辨率设计的稀疏编码模型并设计成一个神经网络,并在一个级联结构中进行训练。减少了训练规模,并在恢复精度和人类主观性方面有更明显的优势。

Introduction

在提高SR性能方面,领域专业知识与大的学习能力是相辅相成的。
首先,基于学习的迭代收缩和阈值算法(LISTA),实现一个前馈神经网络,其层严格对应于基于稀疏编码的图像SR处理流程中的每一步。 这样,稀疏表示先验在网络结构中可以有效编码;同时,稀疏编码的所有组件都可以通过反向传播联合训练。 这种简单的模型被称为基于稀疏编码的网络(SCN),在恢复精度和人类主观性方面比一般的CNN模型有了显著的改进。
另外,还提出了一个多个SCN的级联。 不仅增加了模型的缩放灵活性,而且减少了大尺度因子的伪影。 级联CSDN也可以从具有专门设计的多尺度成本函数的深度网络端到端的训练中受益。
总结,本文的贡献:

  • 将稀疏编码的领域专业知识和深度学习的优点相结合,在快速的训练和更小的模型大小下实现更好的SR性能;
  • 对大尺度和任意尺度因子使用网络级联;
  • 对最近几种最先进的方法进行主观评估。

Related Work

  • Image SR Using Sparse Coding
    基于稀疏表示的SR
    对于输入的LR补丁y,HR补丁可以恢复为:
    在这里插入图片描述
  • Network Implementation of Sparse Coding
    稀疏编码的网络实现
    在这里插入图片描述
    一种具有2个时间展开的循环阶段的LISTA网络,输出α是输入信号y的稀疏码的近似值。从数据中学习线性权值W、S和收缩阈值θ。

Sparse Coding based Network for Image SR

与大多数基于补丁的SR方法一样,基于稀疏编码的网络(SCN)以二倍向上扩展的LR图像Iy作为输入,并输出完整的HR图像Ix。如下图所示。
首先显示了主网络结构,接着描述每个层。
在这里插入图片描述
输入图像Iy首先经过一个卷积层H,提取每个LR补丁的特征。 在这一层中有空间大小sy×sy过滤器,这样输入补丁大小就是sy×sy,它的特征表示y就是维度。
然后,每个LR补丁y被馈入一个具有有限数量的k个循环阶段的LISTA网络中,以获得其稀疏代码α的∈Rn。LISTA的每个阶段由由∈、×参数化和∈、×参数化的两个线性层组成,以及一个具有激活函数为h的θ的非线性神经元层。激活阈值θ的∈注册也将在训练过程中更新,这使学习算法复杂化。为了限制线性层中的所有可调参数,将激活函数重写为
在这里插入图片描述
表示具有可调阈值的原始神经元可以分解为两个线性缩放层和一个单元阈值神经元,如图右上角所示。
然后将稀疏代码α与下一个线性层中的hr字典Dx∈rmx×乘以,重建大小为sx×的sx=mx。
在最后一层G中, 通过空间大小为sg×sg的MX通道的卷积滤波器来实现将所有恢复的补丁放回HR图像中的相应位置。 该滤波器将为来自不同补丁的重叠回收率分配适当的权重,并将它们的加权平均值作为Ix中的最终预测。
如图底部,经过简单的层连接重组后,上述网络具有一些相邻的线性层,可以合并成一个单层。 有助于减少网络中的计算负载和冗余参数。 层H和G不合并,因为在补丁y和x上应用了额外的非线性归一化操作,这将在SEC.5中介绍。
将相似线性层合并成单层线性层,故共有5层训练层,两个卷积层H和G,和三个线性层(灰框中),k个循环出现的层是共享的,但具有相同的权重,因此在概念上被认为成一个。
本文中损失函数使用MSE,k可以达到最好效果:
在这里插入图片描述
SCN的优点是它能够从端到端联合优化所有层参数;与CNN最大不同是有一个LISTA子网络强制执行稀疏操作。
SCN是专门为稀疏编码领域设计,比普通CNN有更快的训练速度和更小的模型大小。

Network Cascade for Scalable SR

类似于大多数从外部训练示例学习的SR模型一样,SCN也只能通过固定因素提升图像。需要为每个缩放因子单独训练一个模型,这显然限制了实际应用中的灵活性和可扩展性。解决方法之一是通过一个固定尺寸反复放大HR图像,直到得到的HR图像达到所需的大小。 通常是在基于自相似的方法中采用的,但可能会造成重复升级过程中的错误积累。

然而,在我们的例子中,观察到针对小尺度因子训练的SCNS(CSCN)级联可以产生比针对大尺度因子训练的单个SCN更好的SR结果,特别是当目标尺度因子较大(大于2)时)。 图中的示例说明了这一点。
在这里插入图片描述

输入图像以两种方式放大×4倍
(A)→(B)→(D)使用单个SCN×4模型;
(A)→©和(E)通过两个SCN和2个模型级联。 可以看出,©中的第二级联SCN×2的输入已经比(B)中的单个SCN×4的双三次输入更清晰,并且包含更少的伪影,这自然导致了(E)中的最终结果比(D)中的结果更好)。 因此,级联中的每个SCN都是一个“中继站”,它逐渐恢复在双三次插值中丢失的一些有用信息,并补偿从以前阶段聚合的失真。
CSCN也是一个深度网络,其中每个SCN的输出连接到下一个SCN的输入,并在两者之间进行双三次插值。 为了构造级联,除了叠加几个针对单独训练的SCNS外,我们还可以联合优化它们,如下图所示。
在这里插入图片描述
在不失去通用性的情况下,我们假设级联中的每个SCN具有相同的缩放因子s.设I0表示原始大小的输入图像,Iˆj(j>0)表示由总共×个sj时间缩放的第j个SCN的输出图像。 每个Iˆj都可以根据MSE成本与其相关的地面真实图像Ij进行比较,从而得到一个多尺度的目标函数:

在这里插入图片描述
其中i表示数据索引,j表示SCN索引。 I↑s是I的双三次插值图像,由s的一个因子组成。这种多尺度目标函数充分利用了所有尺度上的监督信息,与异构网络具有相似的思想。 通过反向传播,可以从端到端对式中的所有层参数{Θj}进行优化。 我们在这里使用贪婪算法从级联的开始顺序地训练每个SCN,这样我们就不需要关心双三次层的梯度。

Implementation Details

为了减少参数的数量,我们将LR补丁提取层H作为两层的组合:第一层有4个可训练的过滤器,每个滤波器被第二层移到25个固定位置。类似地,补丁组合层G也被分割成在重叠补丁中对准像素的固定层和其权重被用来组合重叠像素的可训练层。这样,这两层中的参数数量就减少了一个顺序以上,并且没有明显的性能损失。
使用一个标准的随机梯度下降算法来训练我们的小批量大小为64的网络。根据对每层在稀疏编码中的作用的理解,使用类哈梯度滤波器初始化层H,并使用均匀权值初始化层G,其余三个线性层都与稀疏编码中的字典对(Dx、Dy)有关。为了初始化它们,我们首先用高斯噪声随机设置Dx和Dy,然后找到相应的层权重。
在测试中,为了使输出样本覆盖整个图像,裁剪具有重叠的输入样本,并通过反射扩展原始图像的边界。 只有亮度通道用我们的方法处理,双三次插值应用于色度通道。 为了使用CSCN实现任意的缩放因子,将图像重复×2次,直到它至少与所需的大小相同。 然后使用双三次插值在必要时将其降到目标分辨率。
在SEC.6.2介绍最佳结果,另外还使用了图像分类中常用的多视图测试策略。对于基于补丁的图像SR,当多个重叠块的预测被平均时,可使用多视图隐式使用测试。在这里,除了采样重叠的补丁外,还可以通过翻转和转换补丁来添加更多的视图。该策略可以完全以计算成本为代价,提高一般算法的SR性能。

Experiments

所有的模型都是从一个有91幅图像的训练集中学习的,并在SET5[3]、SET14[37]和BSD100上进行了测试,这些训练集分别包含5、14和100幅图像。

Algorithm Analysi

首先在第一层H中可视化学习四个滤波器。滤波器模式与初始一阶和二阶梯度算子的变化不大。 一些额外的小系数被引入到一个高度结构化的形式,捕捉更丰富的高频细节。
如下图,SCN比稀疏编码(SC)有了显著的改进,因为它通过端到端训练更有效地利用了数据。SCN可以收敛得更快、更好。
在这里插入图片描述
SCN的网络大小主要由字典大小n决定,除了默认值n=128外,还尝试了其他大小,并绘制了它们的性能与网络参数的数量,如下图。
在这里插入图片描述
将k从1增加到3只会提高小于0.1dB的性能。 作为速度和精度之间的权衡,在整篇论文中使用k=1

下表中,对不同的网络级联结构(在每一行中)在不同的缩放因子(在每列中)进行了比较。 SCN×a表示具有固定缩放因子a的SCN的简单级联。 观察到SCN×2可以执行小尺度因子(1.5)的尺度特定模型,对于大尺度因子(3和4)更好。 请注意,SCN×1.5的级联不会导致良好的结果。因此默认SCN×2作为CSCN的默认构建块。使用上文中的多尺度目标训练的CSCN可以进一步改善缩放因子3和4的SR结果,因为级联中的第二个SCN被训练为对第一个目标生成的伪影具有鲁棒性。
在这里插入图片描述

Comparison with State of the Arts

在PSNR和SSIM中,CSCN的性能始终优于所有以前的方法,并且通过多视图测试,结果可以进一步改进。CSDN大小更小,并使用更小的数据集,级联结构对于大尺度因子更有效。
在这里插入图片描述
下图中比较了稀疏编码(SC)、CNN和CSCN生成的SR结果的视觉质量。我们的方法产生具有剪裁边界和更丰富纹理的图像模式,并且没有在其他两种方法中可以观察到的振铃伪影。
在这里插入图片描述
CSCN方法可以恢复字符的所有结构,而没有任何失真。
在这里插入图片描述
还比较了CSCN和其他稀疏编码扩展,并考虑了在降尺度中引入的模糊效应。 一般情况下,CSCN实现了0.3∼1.6dB的PSNR增益。
代码地址:www.ifp.illinois.edu/˜dingliu2/iccv15

Subjective Evaluation

作者接下来邀请了270名参与者对6张不同比例因子的图像进行了720张成对进行主观比较,并得到了如下结论:
在这里插入图片描述
如上图,(地面真相方法的分数归一化为1)。 正如预期的那样,所有SR方法的得分都比地面真相低得多,显示了SR问题的巨大挑战。 双三次插值比其他SR方法差得多。 所提出的CSCN方法优于以往的其他最先进的方法。
这表明CSCN产生的视觉上吸引人的图像外观应该归因于稀疏表示的正则化,这仅仅通过最小化重建误差是不容易学习的。

Conclusions

1、摘要结合稀疏编码和深度网络的优势,提出了一种新的图像SR模型,并在定量和定性上对现有的深度和浅层SR模型进行了很大的改进。稀疏编码形式的领域知识,除了产生良好的SR结果外,还可以提高训练速度和模型紧凑性。
2、提出了一个级联网络,以获得更好的缩放因子的灵活性,以及对伪影的更鲁棒性。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值