Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】
Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】)
1. instroduction
传统VSR:考虑多帧LR来得到一帧HR——运动估计和补偿,然后是上采样。
问题:结果严重依赖于运动估计的准确性;HR帧是通过CNN混合来自多个运动补偿输入LR帧,会导致HR模糊。
本文:运动信息用来隐式生成动态的上采样滤波器,对输入中心帧进行局部滤波直接构建HR帧。
优点:不依赖显式运动的计算和直接组合来自多个帧的值,可以获得更清晰和时间一致的HR视频
2. 相关工作
- SISR:单图像的超分放大
- VSR:视频超分放大
① BRCN:三种卷积——用于空间依赖性的前馈卷积,用于长期实践依赖性的循环卷积,用于长期的上下文信息的条件卷积;
② DECN:采用一个无迭代的框架来减少运动估计的计算量
③ VSRnet:手工设计的光流算法作为预处理来运动补偿,然后喂入一个深度SR网络
④ VESPCN: 在不同LR之间估计光流,通过一个学习过的CNN,通过空间变换器扭曲帧,最后通过深度网络生成HR
⑤ Liu et al. [24]: 时间自适应神经网络,得到不同的半径,自适应使用这个不同时间半径的运动信息
⑥ Tao et al. [34]:使用④VESPCN中的运动估计,然后提出一个亚像素的运动补偿层来同时运动补偿和上采样;对于之后的SR网络,编码-解码类型的网络,用来加速训练;ConvLSTM模型被使用,因为视频时序列数据(?)
以上端到端的CNN都是基于VSR方式,聚焦于准确的运动估计和补偿,这与本文的方法是不同的
3. 方法
N为时间半径,r为放大倍率
输入(2N+1)HWC
输出1rHrWC
问题:如果是实时超分放大,应该无法获取到t到t+N帧,或者说这只是用来网络学习训练
图2:(3,3)像素,通过倍率=4放大后,产生在区域(12,12)-(15,15),通过16个生成滤波器来产生这16个像素
框架:输入中心帧首先通过Ft局部滤波,然后残差Rt被加到上采样结果Yt中
3.1 动态采样滤波器
传统的滤波器都是采样固定的滤波器组合,比如对于倍率=4的SR,就采用固定的16个固定内核,快但很难恢复锐利和有纹理的区域。
半径N=3,滤波器尺寸5*5,最后,每一个输出HR像素,都是LR的一个像素经过局部滤波得到:其中y,x为LR的坐标
v,u是r*r输出块的坐标
之前基于深度学习的SR:DL通过特征空间的一系列卷积来学习重建HR帧
本文:使用DL来学习最佳的上采样滤波器,并直接从LR得到HR
原理:动态滤波器是根据像素运动创建的,因为滤波器通过查看时间-空间的相邻像素生成,使我们能够避免显式运动补偿。
3.2 残差学习
滤波器仍然只是输入像素的加权求和,需要额外估计残差学习来增加高频细节。
[17]中是将残差加到双三次上采样基线来产生最终输出。但因为残差是多个输入帧得到而不是单个,本文使用动态上采样帧作为更好的基线。
3.3 网络设计
采用3D卷积代替2D卷积:在人类动作识别和视频数据上的通用时空特征提取中更加适合,
3.4 时间增长
训练和现实相应的数据(用来得到更多的数据):时间轴随机旋转和反转,TA用来表示间隔采样(间隔太大,VSR性能会降低,因为位移变大)
4. 实现
-
数据集
351个视频:包含野生动物、活动和景观
训练集:采样16000:144*144
验证集:使用4个视频,Val4——Derf收藏的海岸警卫队、工头、花园和哈士奇
测试集:vid4 -
训练
高斯滤波器+下采样(倍率r)得到LR视频(32*32)
变量初始化参照==[8]==
cost function:来收敛
cost function和lost fuction的区别
5. 结果比较
- 定量
Ours-28L比Ours-16L多了0.2M参数量
- 定性
纹理和细节更加清楚