文献阅读2：Deep Video Super-Resolution Network

makxxl

已于 2022-03-14 18:57:04 修改

阅读量4.5k

点赞数

文章标签：计算机视觉人工智能深度学习

于 2022-03-14 18:52:18 首次发布

本文链接：https://blog.csdn.net/makxxll/article/details/123472388

版权

该研究提出了一个深度视频超分辨率网络，使用动态上采样滤波器而无需显式运动补偿。与传统方法依赖精确运动估计不同，该方法利用运动信息生成滤波器，直接从输入中心帧构造高分辨率视频，减少了模糊并提高了时间一致性。网络设计包括3D卷积和残差学习，通过学习最佳滤波器和添加残差细节来提升图像质量。实验表明，这种方法在纹理和细节恢复上表现出色，且适用于实时视频超分辨率处理。

摘要由CSDN通过智能技术生成

Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】

1. instroduction
2. 相关工作
3. 方法
4. 实现
5. 结果比较
6. 网络训练

Dynamic Upsampling Filters Without Explicit Motion Compensation【隐式运动补偿的动态上采样滤波器的深度视频超分辨率网络】)

原文链接

1. instroduction

传统VSR：考虑多帧LR来得到一帧HR——运动估计和补偿，然后是上采样。
问题：结果严重依赖于运动估计的准确性；HR帧是通过CNN混合来自多个运动补偿输入LR帧，会导致HR模糊。

本文：运动信息用来隐式生成动态的上采样滤波器，对输入中心帧进行局部滤波直接构建HR帧。
优点：不依赖显式运动的计算和直接组合来自多个帧的值，可以获得更清晰和时间一致的HR视频

2. 相关工作

SISR：单图像的超分放大
VSR：视频超分放大
① BRCN：三种卷积——用于空间依赖性的前馈卷积，用于长期实践依赖性的循环卷积，用于长期的上下文信息的条件卷积；
② DECN：采用一个无迭代的框架来减少运动估计的计算量
③ VSRnet：手工设计的光流算法作为预处理来运动补偿，然后喂入一个深度SR网络
④ VESPCN：在不同LR之间估计光流，通过一个学习过的CNN，通过空间变换器扭曲帧，最后通过深度网络生成HR
⑤ Liu et al. [24]：时间自适应神经网络，得到不同的半径，自适应使用这个不同时间半径的运动信息
⑥ Tao et al. [34]：使用④VESPCN中的运动估计，然后提出一个亚像素的运动补偿层来同时运动补偿和上采样；对于之后的SR网络，编码-解码类型的网络，用来加速训练；ConvLSTM模型被使用，因为视频时序列数据（？）

以上端到端的CNN都是基于VSR方式，聚焦于准确的运动估计和补偿，这与本文的方法是不同的

3. 方法

N为时间半径，r为放大倍率
输入(2N+1)HWC
输出1rHrWC

在这里插入图片描述
问题：如果是实时超分放大，应该无法获取到t到t+N帧，或者说这只是用来网络学习训练

图2：（3，3）像素，通过倍率=4放大后，产生在区域（12，12）-（15，15），通过16个生成滤波器来产生这16个像素

框架：输入中心帧首先通过Ft局部滤波，然后残差Rt被加到上采样结果Yt中

3.1 动态采样滤波器

传统的滤波器都是采样固定的滤波器组合，比如对于倍率=4的SR，就采用固定的16个固定内核，快但很难恢复锐利和有纹理的区域。

半径N=3，滤波器尺寸5*5，最后，每一个输出HR像素，都是LR的一个像素经过局部滤波得到：其中y,x为LR的坐标

v,u是r*r输出块的坐标
在这里插入图片描述
之前基于深度学习的SR：DL通过特征空间的一系列卷积来学习重建HR帧
本文：使用DL来学习最佳的上采样滤波器，并直接从LR得到HR
原理：动态滤波器是根据像素运动创建的，因为滤波器通过查看时间-空间的相邻像素生成，使我们能够避免显式运动补偿。

3.2 残差学习

滤波器仍然只是输入像素的加权求和，需要额外估计残差学习来增加高频细节。
[17]中是将残差加到双三次上采样基线来产生最终输出。但因为残差是多个输入帧得到而不是单个，本文使用动态上采样帧作为更好的基线。

3.3 网络设计

采用3D卷积代替2D卷积：在人类动作识别和视频数据上的通用时空特征提取中更加适合，
在这里插入图片描述

3.4 时间增长

训练和现实相应的数据（用来得到更多的数据）：时间轴随机旋转和反转，TA用来表示间隔采样（间隔太大，VSR性能会降低，因为位移变大）

4. 实现

数据集
351个视频：包含野生动物、活动和景观
训练集：采样16000：144*144
验证集：使用4个视频，Val4——Derf收藏的海岸警卫队、工头、花园和哈士奇
测试集：vid4
训练
高斯滤波器+下采样（倍率r）得到LR视频（32*32）
变量初始化参照==[8]==
cost function：来收敛
cost function和lost fuction的区别