视频超分:Zooming Slow-Mo（Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution）

WangsyUQ

已于 2022-06-06 22:32:48 修改

阅读量1.2k

点赞数 2

分类专栏：视频超分(VSR) 文章标签：深度学习计算机视觉

于 2020-10-06 20:33:08 首次发布

本文链接：https://blog.csdn.net/Srhyme/article/details/108938498

版权

视频超分辨率时空超分可变形ConvLSTM 特征插值慢动作视频

关键词由CSDN通过智能技术生成

视频超分(VSR) 专栏收录该内容

54 篇文章 103 订阅

订阅专栏

在这里插入图片描述
论文：慢动作缩放：快速准确的一阶时空视频超分
文章检索出处： 2020 CVPR

摘要和简介

时空视频超分辨率任务旨在从低帧率(LFR)，低分辨率(LR)视频中生成高分辨率(HR)慢动作视频。一个简单的解决方案是将其分为两个子任务：视频帧插值(VFI)和视频超分(VSR)。但是，时间插值和空间超分在此任务中是内部相关的，两阶段方法无法充分利用自然属性。另外，他们具有较大规模的模型尺寸，非常耗时。
为了克服这些问题，我们提出了一个单阶时空视频超分框架，该框架可以直接从LFR，LR视频合成HR慢动作视频。而不是合成丢失的LR视频帧。像VFI网络一样，我们首先通过提出的特征时间插值网络对LR帧特征进行时间插值。然后，我们提出了一个可变形的ConvLSTM，以同时对齐和聚合时间信息，以便更好地利用全局时间上下文。最后，采用深度重构网络来预测HR慢动作视频帧。在数据集上进行大量实验表明，该方法不仅可实现更好的性能，而且比最近的两阶段技术（例如DAIN + EDVR/RBPN）快三倍以上。

时空视频超分

给定一个LR,LFR视频序列： $\mathcal{I}^L=\{I_{2t-1}^{L}\}_{t=1}^{n+1}$ (1,3,…,2n+1)，我们的目标是生成相应的高分辨率序列 $\mathcal{I}^H=\{I_{t}^{H}\}_{t=1}^{2n+1}$ (1,2,…,2n+1)。其中，中间HR帧 ${I_{2t}^{H}\}_{t=1}^{n}$ (2,4,…,2n)是没有对应的LR输入帧的。我们提出了一个单阶时空超分框架：Zooming Slow-Mo，该框架主要包括四个部分：特征提取，帧特征时间插值模块，可变形的ConvLSTM和HR帧重建。
我们首先使用具有卷积层和 $k_1$ 个残差块的特征提取器从输入视频帧中提取特征图 ${F_{2t-1}^{L}\}_{t=1}^{n+1}$ ，然后使用帧特征插值模块合成LR特征图 ${F_{2t}^{L}\}_{t=1}^{n}$ 。为了更好的利用时间信息，使用可变性的ConvLSTM处理连续特征图： ${F_t^L\}_{t=1}^{2n+1}$ 。我们提出的可变性ConvLSTM可以同时执行时间对齐和聚合。最后，从聚合的特征图中重建HR慢动作视频序列。

帧特征时间插值

给定从输入LR视频帧 $I_1^L$ 和 $I_3^L$ 中提取的特征图 $F_1^L$ 和 $F_3^L$ ，要合成丢失的中间LR帧 $I_2^L$ 和相对应的特征图 $F_2^L$ 。我们使用特征时间插值函数 $f$ (·)，以直接合成中间特征图，插值函数的一般形式可以表示为：其中 $T_1$ (·)和 $T_3$ (·)是两个采样函数， $\Phi_1$ 和 $\Phi_3$ 是相应的采样参数，H(·)是用于汇总采样特征的混合函数。
为了生成准确的 $F_2^L$ ， $T_1$ (·)应该捕获 $F_1^L$ 和 $F_2^L$ 之间的前向运动信息，而 $T_3$ (·)应该捕获 $F_3^L$ 和 $F_2^L$ 之间的后向运动信息。但是， $F_2^L$ 在此任务中不可用于计算前进和后退运动信息。为了缓解此问题，我们使用 $F_1^L$ 和 $F_3^L$ 之间的运动信息来近似向前和向后运动信息，具体如下:

其中， $g_1$ 表示几个卷积层，[ , ]表示通道上叠加， $\alpha$ 和 $\beta$ 表示两个可学习的1x1卷积核， $*$ 表示卷积操作。

可变形的ConvLSTM

ConvLSTM只能隐式捕获先前状态的运动: $h_{t-1}$ 和 $c_{t-1}$ ，以及当前具有小卷积接受场的输入特征图。因此它处理自然视频中较大运动的能力有限。会导致重建的HR帧遭受恼人的伪影。为了解决大型运动问题并有效利用全局时间上下文，我们将具有可变形对齐方式的状态更新单元嵌入到ConvLSTM中。
其中， $g^h$ 和 $g^c$ 是几个卷积层的函数， $h_{t-1}^{a}$ 和 $c_{t-1}^{a}$ 分别为对齐的隐藏状态和cell。为了充分探索时间信息，我们以双向方式使用可变形ConvLSTM。我们将时间反转的特征图输入到相同的可变形ConvLSTM中，并将来自前向通过和后向通过的隐藏状态连接起来，作为用于HR帧重构的最终隐藏状态 $h_t$ 。

帧重建与实现细节

为了重建HR视频帧，我们使用一个时间共享的合成网络，该网络将各个隐藏状态 $h_t$ 作为输入去输出相对应的HR帧。它有 $k_2$ 个堆叠的残差块，并具有PixelShuffle子像素放大模块。
帧重建部分损失函数如下：
其中， $\epsilon=1$ x $10^{-3}$ 。在我们的模型中， $k_1$ =5， $k_2$ =40。我们随机裁剪一系列大小为32x32的下采样图像块，取出奇索引的4帧作为LFR和LR输入，并取出相应的连续7帧序列作为监督。此外，我们通过随机旋转90，180和270以及水平翻转来执行数据增强。我们在中采用金字塔，级联和可变形（PCD）结构，以采用可变形对齐并应用Adam优化器，在该优化器中，每批次将学习率从4e-4降低到1e-7，批量大小设置为24，并在2个Nvidia Titan XP GPU上进行训练。
数据集我们使用Vimeo-90K作为训练集，包括60,000多个7帧训练视频序列。
我们使用Viemo-90K作为训练集。Vid4和Vimeo测试集被用作评估数据集。为了测量不同方法在不同运动条件下的性能，我们将Vimeo测试集分为中的快动作，中动作和慢动作集，分别包含1225、4977和1613个视频剪辑。我们从原始的中速运动集中删除了5个视频片段，从慢速运动集中删除了3个片段，它们连续具有全黑背景帧，从而导致PSNR达到无限值。我们通过双三次生成LR帧，下采样因子为4，并使用奇数索引的LR帧作为输入来预测相应的连续HR和HFR帧。

消融实验

可变形ConvLSTM的有效性:
双向DConvLSTM机制的有效性：

量化评估

仅供学习使用，请勿转载。

WangsyUQ

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
视频超分:Zooming Slow-Mo（Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution）

论文：慢动作缩放：快速准确的一阶时空视频超分文章检索出处： 2020 CVPR仅供学习使用，请勿转载。
复制链接

扫一扫

专栏目录