Residual Invertible Spatio-Temporal Network for Video Super-Resolution

发表在AAAI2019。

主要工作:充分利用低分辨率到高分辨率的空间信息,从连续的视频帧建模时间的一致性。对于空间部分,设计了残差可逆块用于减少特征转换中的信息损失,并且提供鲁棒的特征表示。对于时间部分,使用了残差稠密连接的循环卷积模型。在重建模块,提出了基于稀疏策略的融合方法,用于合并时间特征和空间特征。

目前捕捉连续帧的时间一致性的方法分为两类:基于运动补偿的方法,提取显式的运动信息,如光流,但运算量太大;和基于循环卷积网络的方法,先前的方法有四个缺陷:LR视频帧必须提前进行插值;不能很好地保持空间信息;现有的循环架构大多不够深入,无法有效地覆盖VSR中的远程运动和时间一致性;时间信息和空间信息没有进行结合在一起。

本文(RISTN)主要分为三个分量:时间分量、空间分量和重建分量。

空间分量中,超分后的图像应该与低分辨率的图像具有相似的结构,本文使用的是残差可逆块,改进《i-REVNET: DEEP INVERTIBLE NETWORKS》这篇文章中的网络结构,

                                      

 ,则X^{(0)}_{1}可以表示为。类似的可得:

故前一层的特征可以用任意的X^{(i)}_0X^{(i)}_1表示,另外,RIB的输出可以表示为:                                 

(ps: 使用上述的结构其实就是把原来的图像按照通道分开,然后将一部分通道的图像进行卷积,再与另一部分相加,这样最后在concat的时候能够保证原图的所有通道的空间信息都保留了。) 

时间分量上,使用的是具有快捷连接的循环模型。使用了卷积的LSTM(C-LSTM)。                                       

 由于b和d有按元素相加的操作,必须保证通道数一致,因此引入了一个卷积层保证输入和输出的通道数相同,

 稀疏特征融合:使用稀疏策略去融合时间和空间特征。利用稀疏性去选择有用的特征,降低过拟合的风险。

利用了映射层将时间特征转换为与空间特征相同的空间,

 

SM是一个稀疏矩阵。 

最后使用了反卷积作为重建过程中的上采样。

训练损失:

先在ImageNet上预训练:

然后在视频数据集上训练RISTN: 

 

L1损失可以保证SM的稀疏性。 

实验结果:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值