文献阅读2:Deep Video Super-Resolution Network

该研究提出了一个深度视频超分辨率网络,使用动态上采样滤波器而无需显式运动补偿。与传统方法依赖精确运动估计不同,该方法利用运动信息生成滤波器,直接从输入中心帧构造高分辨率视频,减少了模糊并提高了时间一致性。网络设计包括3D卷积和残差学习,通过学习最佳滤波器和添加残差细节来提升图像质量。实验表明,这种方法在纹理和细节恢复上表现出色,且适用于实时视频超分辨率处理。
摘要由CSDN通过智能技术生成

Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】


Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】)

原文链接

1. instroduction

传统VSR:考虑多帧LR来得到一帧HR——运动估计和补偿,然后是上采样。
问题:结果严重依赖于运动估计的准确性;HR帧是通过CNN混合来自多个运动补偿输入LR帧,会导致HR模糊。

本文:运动信息用来隐式生成动态的上采样滤波器,对输入中心帧进行局部滤波直接构建HR帧。
优点:不依赖显式运动的计算和直接组合来自多个帧的值,可以获得更清晰和时间一致的HR视频

2. 相关工作

  • SISR:单图像的超分放大
  • VSR:视频超分放大
    ① BRCN:三种卷积——用于空间依赖性的前馈卷积,用于长期实践依赖性的循环卷积,用于长期的上下文信息的条件卷积;
    ② DECN:采用一个无迭代的框架来减少运动估计的计算量
    ③ VSRnet:手工设计的光流算法作为预处理来运动补偿,然后喂入一个深度SR网络
    ④ VESPCN: 在不同LR之间估计光流,通过一个学习过的CNN,通过空间变换器扭曲帧,最后通过深度网络生成HR
    ⑤ Liu et al. [24]: 时间自适应神经网络,得到不同的半径,自适应使用这个不同时间半径的运动信息
    ⑥ Tao et al. [34]:使用④VESPCN中的运动估计,然后提出一个亚像素的运动补偿层来同时运动补偿和上采样;对于之后的SR网络,编码-解码类型的网络,用来加速训练;ConvLSTM模型被使用,因为视频时序列数据(?)

以上端到端的CNN都是基于VSR方式,聚焦于准确的运动估计和补偿,这与本文的方法是不同的

3. 方法

N为时间半径,r为放大倍率
输入(2N+1)HWC
输出1
rHrWC

在这里插入图片描述
问题:如果是实时超分放大,应该无法获取到t到t+N帧,或者说这只是用来网络学习训练

图2:(3,3)像素,通过倍率=4放大后,产生在区域(12,12)-(15,15),通过16个生成滤波器来产生这16个像素
图2:(3,3)像素,通过倍率=4放大后,产生在区域(12,12)-(15,15),通过16个生成滤波器来产生这16个像素

框架:输入中心帧首先通过Ft局部滤波,然后残差Rt被加到上采样结果Yt中

3.1 动态采样滤波器

传统的滤波器都是采样固定的滤波器组合,比如对于倍率=4的SR,就采用固定的16个固定内核,快但很难恢复锐利和有纹理的区域。

半径N=3,滤波器尺寸5*5,最后,每一个输出HR像素,都是LR的一个像素经过局部滤波得到:其中y,x为LR的坐标

v,u是r*r输出块的坐标
在这里插入图片描述
之前基于深度学习的SR:DL通过特征空间的一系列卷积来学习重建HR帧
本文:使用DL来学习最佳的上采样滤波器,并直接从LR得到HR
原理:动态滤波器是根据像素运动创建的,因为滤波器通过查看时间-空间的相邻像素生成,使我们能够避免显式运动补偿。

3.2 残差学习

滤波器仍然只是输入像素的加权求和,需要额外估计残差学习来增加高频细节。
[17]中是将残差加到双三次上采样基线来产生最终输出。但因为残差是多个输入帧得到而不是单个,本文使用动态上采样帧作为更好的基线。

3.3 网络设计

采用3D卷积代替2D卷积:在人类动作识别和视频数据上的通用时空特征提取中更加适合,
在这里插入图片描述

3.4 时间增长

训练和现实相应的数据(用来得到更多的数据):时间轴随机旋转反转,TA用来表示间隔采样(间隔太大,VSR性能会降低,因为位移变大)

4. 实现

  • 数据集
    351个视频:包含野生动物、活动和景观
    训练集:采样16000:144*144
    验证集:使用4个视频,Val4——Derf收藏的海岸警卫队、工头、花园和哈士奇
    测试集:vid4

  • 训练
    高斯滤波器+下采样(倍率r)得到LR视频(32*32)
    变量初始化参照==[8]==
    cost function:来收敛
    cost function和lost fuction的区别

5. 结果比较

  • 定量
    Ours-28L比Ours-16L多了0.2M参数量
    在这里插入图片描述
  • 定性
    纹理和细节更加清楚

6. 网络训练

Code of Deep VSR Network

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值