FSRCNN快速图像超分辨论文翻译

摘要

大量的计算代价很难达到实时。我们在三个方面改进了srcnn。
1. 在网络末端加入反卷积层,向HR的映射直接从原始LR(未经插值)学得.
2. 在映射和扩展反馈之前通过收缩输入特征维度来重新制作映射层.
3. 使用了更小的滤波器和更多的映射层.
可以在CPU上实现实时并且效果不错.

1 介绍

目前SR算法多为基于学习的方法,即学习HR和LR之间的映射,SRCNN对于较大图片的处理速度不够好,例如以三倍系数对240*240图片上采样,SRCNN帧率是1.32fps,远低于实时的24fps.难以置信…然而作者发现了两个问题限制了网络速度.
1. 在预处理阶段,原始LR图片需要通过双三次插值上采样,因此SRCNN的计算复杂度随HR图片大小变化,为平方倍。插值LR的计算代价是原始LR的n^2倍,所以直接学习原始LR可以加速n^2倍。
2. 第二个问题在非线性映射。在SRCNN中,输入图像块被投影到高维LR特征空间,然后通过复杂的映射到另一个高维HR特征空间。采用更广泛的映射层可以大幅提高映射精度,但是会有计算量的代价。那么问题就是如何在缩小网络尺寸的同时维持先前的精度。
问题1的解决:用反卷积层代替双三次插值,将其置于网络末端,那么计算复杂度仅与原始LR尺寸成比例。值得一提的是反卷积层不是简单替代传统插值内核,或是‘上池化+卷积’。事实上,它由多种自动学习的上采样核组成(图三),这些核共同工作来生成最终HR输出,并且用统一插值内核来代替反卷积滤波器,这将导致PSNR剧烈下降。
问题2的解决:在映射层的前后端分别加入萎缩层和扩张层,以限制在低维特征空间的映射。特别的,我们将一个大的映射层分解为多个3*3的小层。网络为对称漏斗,中间小,两头大。
FSRCNN特点:所有卷积层可以被不同放大因子的网络所共享,我们只需要微调反卷积层,以获得另一个放大倍数,而这几乎不会损失映射精度。
我们的贡献有三点:
1. 制定了一个漏斗状的,紧凑的CNN结构用于快速图像超分辨。借助于反卷积核之间的合作,网络不需要预处理就可以学习到一个原始LR与HR之间的端对端的映射。
2. 该模型保证精度的同时还实现了加速(比SRCNN-EX快四十倍)。
3. 我们传递该网络的卷积层来实现不同上采样因子之间的快速训练和测试,没有恢复质量的损失。

2 相关工作

用于超分辨的DL
SCN:为保证映射精度,很难去缩小稀疏编码子网络。众多网络都需要对LR插值。FSRCNN不仅直接作用于原始LR,还拥有简洁且更有效的映射层。先前方法必须训练一个完全不同的网络用于指定的上采样因子,而FSRCNN只需要更换不同反卷积层即可。
CNN加速
首先,他们专注于逼近已有的训练的很好的模型,而我们重新制定了模型且实现了更好的效果。其次,现有方法都是用来解决高等级视觉问题(图像分类,物体检测),而我们的方法是用于低级视觉任务。由于SR的深层模型不包含全连接层,因此卷积滤波器的近似值将严重影响性能。

3 基于CNN的快速超分辨

3.1 SRCNN

SRCNN的复杂度与HR尺寸有关,中间层的参数在整个网络中占比最多,下一节的FSRCNN将重点注意这两点。

3.2 FSRCNN

图2展示了SRCNN和FSRCNN的三个区别:
1. 输入:
SRCNN需要对LR插值,FSRCNN不需要,并用反卷积层来替换上采样层;
2. 非线性映射:
SRCNN的非线性映射在FSRCNN中用压缩,映射,扩展,三步来代替;
3. 网络结构:
SRCNN为三层,FSRCNN更深且层的尺寸更小。
这些因素使得FSRCNN更快且更好。
定义Conv(fi,ni,ci)为卷积层,DeConv(fi,ni,ci)为反卷积层,fi,ni,ci分别代表滤波器尺寸,滤波器数量,通道数量。
特征提取
为了与SRCNN区分,FSRCNN的输入图像定义为Ys,通过第一部分过滤器的卷积,输入的每一块(单像素重叠)被表示为高维特征向量。
在选择f1,n1,c1参数时我们参考了SRCNN。SRCNN中第一层过滤器的尺寸为9.注意这些过滤器作用于被放大尺寸的图像Y。由于Y中大部分图像是从Ys插值的,Ys中一个5*5的块可以覆盖Y中一个9*9的块中的几乎全部的信息。因此,我们可以接受一个更小尺寸的滤波器,f1=5,这会有一点信息的损失。对于通道数量,我们和SRCNN一样令c1=1.另一个观点认为n1可视为LR特征维度的数量,表示为d,第一个敏感变量。最终,第一层可被表示为Conv(5,d,1)
压缩
在SRCNN,映射层通常位于特征提取层之后,高维LR特征直接被映射到HR特征空间。然而,LR特征维度d通常非常大,映射步骤的计算复杂度非常大。这个现象也存在于一些应对高级视觉任务的深度模型之中。作者参考了《Network in network》中1*1的思路,在特征提取层后加入了压缩层以减小LR特征维度d。f2=1*1,使之类似于与LR的线性结合。通过采用一个更小的核数量n2=s远小于d,那么LR特征为度就成为s。这里s是第二个敏感变量,其决定了压缩等级,第二层可被表示为Conv(1,s,d)。这极大降低了参数数量。(详情见3.3)
非线性映射
非线性映射是SR中最重要的一部分,映射层的宽度(一层的核数量)和

好了我要先去看Network in network了

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值