(LapSRN)CVPR-2017:Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution

用于快速准确超分辨率的深度拉普拉斯金字塔网络。

Project Website:LapSRN

一、摘要

(1)提出了拉普拉斯金字塔超分辨率网络(LapSRN)来逐步重建高分辨率图像的子频带残差。

(2)在每个金字塔级别,将粗糙的分辨率特征映射作为输入,预测高频残差,并使用转置卷积进行上采样到精细级别。

(3)不需要双三次插值作为预处理,降低了计算复杂度。

(4)使用稳健的Charbonnier损失函数对LapSRN进行训练。

二、之前的技术存在的问题

现有技术主要存在以下几个问题:

(1)使用双三次插值进行预处理,增加了计算成本,并且通常会导致可见的重建伪影。

有些解决方法是通过在网络最后增加亚像素卷积或转置卷积层来替换预处理步骤,但是这种方法一般是用于较小的网络,无法很好地学习复杂的映射。

(2)采用L2 loss来优化网络,会产生模糊预测。

L2范数:向量各元素的平方和然后求平方根。

因为L2 loss不能捕捉HR patch的潜在多模态分布(同一个LR patch可能对应于对个HR patch)。

(3)大多数方法在一个上采样步骤中重建HR图像,增加了训练大比例因子(例如,×8)的难度。

(4)现有方法无法在多分辨率下生成中间SR预测。因此,需要针对不同的需求来训练各种具有不同的上采样比例和计算负载的模型。

解决方法

提出了基于级联卷积神经网络(CNN)的拉普拉斯金字塔超分辨网络LapSRN。将LR图像作为输入,并以从粗到精的方式逐步预测子频带残差。

在每个层次上:

(1)首先,用一系列卷积层提取特征映射。

(2)然后,使用转置卷积层对特征映射进行更精细的上采样。

(3)最后,使用卷积层来预测子频带残差(上采样图像和ground truth HR图像在各自级别上的差异)。

通过上采样和加法运算,利用各级预测残差重建HR图像。

网络模型如下:

 三、LapSRN与现有的基于CNN的方法的主要差异

 (1)直接从LR图像中提取特征映射,联合学习卷积层和转置卷积层的残差和上采样滤波器。

(2)使用Charbonnier损失函数(而不是L2 loss)来优化网络,以处理异常值并提高重建精度。

(3)逐步重建。通过使用拉普拉斯金字塔的逐步重建,在一个前馈过程中生成多个中间SR预测。通过将网络截断到一定水平,相同的模型可用于不同比例因子的SR。

网络结构比较:

四、网络架构

将LR图像作为输入,并逐步预测个级别的残差图像,其中S是比例因子。

模型有两个分支,如图(e):

(1)特征提取分支

(2)图像重建分支

特征提取分支

每个级别都由d个卷积层和一个转置卷积层组成,按2倍的比例对提取的特征进行上采样。

每个转置卷积层的输出连接到两个不同的层:

(1)用于在第s级重建残差图像的卷积层(图中向下指的箭头)

(2)用于在更精细的级别s+1上提取特征的卷积层(图中向右指的箭头)

图像重建分支

每个级别(s)的输入图像都是通过一个转置卷积层以2的比例上采样得到的,允许这个转置卷积层与所有其他层联合优化。

将上采样的图像与来自特征提取分支的预测残差图像相结合,生成HR输出图像。

然后将输出的s级HR图像输入到s+1级的图像重建分支。

五、损失函数

 其中, 是待优化的网络参数集; 

是真实的HR图像(即,是由原始HR图像y下采样到与相同大小的HR图像);

是s级的残差图像;是放大的LR图像;就代表输出的HR图像; 

N是每个批次中的训练样本数;L是金字塔中的等级数;

是Charbonnier惩罚函数(L1范数的可微变体),根据经验将ε设为1e−3。

在LapSRN中,每个级别s都有其损失函数和相应的ground truth HR图像

六、模型分析比较

模型不同部分的贡献

对模型不同部分进行了分析:(1)残差学习(2)损失函数(3)金字塔结构(4)网络深度。

残差学习

为了验证残差学习的效果,去除了图像重建分支,并直接预测每个级别的HR图像。

结果如图、表:

  • “非残差”网络(蓝色曲线)的性能收敛缓慢,波动显著。LapSRN(红色曲线)在10个时期内优于SRCNN。

损失函数

为了验证Charbonnier损失函数的效果,使用L2损失函数对LapSRN进行训练。

结果如图、表:

  • (1)使用L2 loss(绿色曲线)优化的网络需要更多的迭代才能实现与SRCNN相当的性能
  • 使用L2 loss训练的网络生成的SR图像(d)具有更多的振铃伪影。相比之下,LapSRN重建的SR图像(e)包含相对清晰的细节。

金字塔结构 

 去除金字塔结构,模型变成一个类似于FSRCNN但具有残差学习的网络。

结果如图、表:

  • 金字塔结构带来了适度的性能改进

网络深度

以不同深度(d=3, 5, 10, 15)在每个级别对LapSRN进行训练。

结果如下图:

  • 一般来说,深网络在计算成本增加的情况下表现更好。

与已有技术比较

评估标准:

(1)PSNR(峰值信噪比):基于对应像素点间的误差。

(2)SSIM(结构相似性):从亮度、对比度、结构三方面度量图像相似性。

(3)IFC(信息保真度准则):衡量输出图像和输入图像的共同信息的多少来评价图像质量。

具体请参考:PSNR和SSIMIFC

  • 在大多数数据集上都优于现有方法
  • 实现了更高的IFC值

 可以看到,使用特定的比例因子(2×和4×)进行训练可以获得最佳效果。但如果用8×模型的中间结果来预测2×和4×,性能略低于专门训练的2×和4×模型,这是由于对中间卷积层进行了训练,最小化的是相应级别和更高级别的预测误差。

×4视觉对比:

  •  LapSRN准确地重建了平行直线和网格图案,如窗户和老虎上的条纹
  • 使用双三次上采样进行预处理的方法(A+、VDSR)产生的结果带有明显的伪影,而LapSRN有效地抑制了这些伪影

×8视觉对比:

  • 已有的方法不能很好地超分辨精细结构,LapSRN以相对较快的速度重建出了高质量的HR图像

应用

此时,ground truth图像和下采样核都不可用。

(1)×4,超分辨率历史照片

  • LapSRN可以重建更清晰、更精确的图像
  • LapSRN超级精确解析字母“W”,而VDSR错误地将笔划与字母“O”连接起来。在右图上,LapSRN重建了轨道,而没有振铃伪影。

 (2)对两个空间分辨率为1200×800像素的视频序列进行了基于帧的SR实验

对每一帧进行8倍的降采样,然后对每一帧分别应用2倍、4倍和8倍的超分辨率。

LapSRN计算成本取决于输入图像的大小,因为是从LR空间提取特征。而SRCNN和VDSR的速度受到输出图像大小的限制。FSRCNN和LapSRN都实现了实时性能。

一个代表性帧上×8 SR的结果:

  • LapSRN提供了更清晰的结果

 七、运行时间

结果:

  • 本文提出的LapSRN的速度比除FSRCNN外的所有现有方法都快

 (LapSRN在粗糙分辨率上进行特征提取,并仅使用一个转置卷积层在更精细的分辨率上生成特征映射。与现有的网络在精细分辨率下完成所有特征提取和重构相比,LapSRN大大降低了计算复杂度)

八、局限性

(1)LapSRN模型能够在大尺度上生成清晰的HR图像,例如8×,但它不会“产生”精细的细节

 

 失败案例。

  • 如果LR输入图像没有包含足够数量的结构,LapSRN方法不能产生细节幻觉

(2)模型相对较大。为了减少参数的数量,可以用递归层代替每一级别的深度卷积层。

 九、总结

  • 提出了一个在拉普拉斯金字塔框架内的深度卷积网络,用于快速和准确的单图像超分辨率
  • 模型以从粗到细的方式逐步预测高频残差
  • 用可学习的转置卷积层代替预先定义的双三次插值,并使用鲁棒损失函数优化网络
  • LapSRN缓解了伪影问题,降低了计算复杂度
  • 所提出的LapSRN模型在视觉质量和运行时间方面优于最先进的SR算法
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值