视频超分:Zooming Slow-Mo(Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution)

在这里插入图片描述
论文:慢动作缩放:快速准确的一阶时空视频超分
文章检索出处: 2020 CVPR

摘要和简介

时空视频超分辨率任务旨在从低帧率(LFR),低分辨率(LR)视频中生成高分辨率(HR)慢动作视频。 一个简单的解决方案是将其分为两个子任务:视频帧插值(VFI)和视频超分(VSR)。但是,时间插值和空间超分在此任务中是内部相关的,两阶段方法无法充分利用自然属性。 另外,他们具有较大规模的模型尺寸,非常耗时。
为了克服这些问题,我们提出了一个单阶时空视频超分框架,该框架可以直接从LFR,LR视频合成HR慢动作视频。 而不是合成丢失的LR视频帧。像VFI网络一样,我们首先通过提出的特征时间插值网络对LR帧特征进行时间插值。 然后,我们提出了一个可变形的ConvLSTM,以同时对齐和聚合时间信息,以便更好地利用全局时间上下文。 最后,采用深度重构网络来预测HR慢动作视频帧。 在数据集上进行大量实验表明,该方法不仅可实现更好的性能,而且比最近的两阶段技术(例如DAIN + EDVR/RBPN)快三倍以上。
在这里插入图片描述

时空视频超分

给定一个LR,LFR视频序列: I L = { I 2 t − 1 L } t = 1 n + 1 \mathcal{I}^L=\{I_{2t-1}^{L}\}_{t=1}^{n+1} IL={I2t1L}t=1n+1(1,3,…,2n+1),我们的目标是生成相应的高分辨率序列 I H = { I t H } t = 1 2 n + 1 \mathcal{I}^H=\{I_{t}^{H}\}_{t=1}^{2n+1} IH={ItH}t=12n+1(1,2,…,2n+1)。其中,中间HR帧 { I 2 t H } t = 1 n \{I_{2t}^{H}\}_{t=1}^{n} {I2tH}t=1n(2,4,…,2n)是没有对应的LR输入帧的。我们提出了一个单阶时空超分框架:Zooming Slow-Mo,该框架主要包括四个部分:特征提取,帧特征时间插值模块,可变形的ConvLSTM和HR帧重建。
我们首先使用具有卷积层和 k 1 k_1 k1个残差块的特征提取器从输入视频帧中提取特征图 { F 2 t − 1 L } t = 1 n + 1 \{F_{2t-1}^{L}\}_{t=1}^{n+1} {F2t1L}t=1n+1,然后使用帧特征插值模块合成LR特征图 { F 2 t L } t = 1 n \{F_{2t}^{L}\}_{t=1}^{n} {F2tL}t=1n。为了更好的利用时间信息 ,使用可变性的ConvLSTM处理连续特征图: { F t L } t = 1 2 n + 1 \{F_t^L\}_{t=1}^{2n+1} {FtL}t=12n+1。我们提出的可变性ConvLSTM可以同时执行时间对齐和聚合。最后,从聚合的特征图中重建HR慢动作视频序列。在这里插入图片描述

帧特征时间插值

给定从输入LR视频帧 I 1 L I_1^L I1L I 3 L I_3^L I3L中提取的特征图 F 1 L F_1^L F1L F 3 L F_3^L F3L,要合成丢失的中间LR帧 I 2 L I_2^L I2L和相对应的特征图 F 2 L F_2^L F2L。 我们使用特征时间插值函数 f f f(·),以直接合成中间特征图,插值函数的一般形式可以表示为:在这里插入图片描述其中 T 1 T_1 T1(·)和 T 3 T_3 T3(·)是两个采样函数, Φ 1 \Phi_1 Φ1 Φ 3 \Phi_3 Φ3是相应的采样参数,H(·)是用于汇总采样特征的混合函数。
为了生成准确的 F 2 L F_2^L F2L T 1 T_1 T1(·)应该捕获 F 1 L F_1^L F1L F 2 L F_2^L F2L之间的前向运动信息,而 T 3 T_3 T3(·)应该捕获 F 3 L F_3^L F3L F 2 L F_2^L F2L之间的后向运动信息。 但是, F 2 L F_2^L F2L在此任务中不可用于计算前进和后退运动信息。为了缓解此问题,我们使用 F 1 L F_1^L F1L F 3 L F_3^L F3L之间的运动信息来近似向前和向后运动信息,具体如下:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
其中, g 1 g_1 g1表示几个卷积层,[ , ]表示通道上叠加, α \alpha α β \beta β表示两个可学习的1x1卷积核, ∗ * 表示卷积操作。
在这里插入图片描述

可变形的ConvLSTM

ConvLSTM只能隐式捕获先前状态的运动: h t − 1 h_{t-1} ht1 c t − 1 c_{t-1} ct1,以及当前具有小卷积接受场的输入特征图。 因此它处理自然视频中较大运动的能力有限。 会导致重建的HR帧遭受恼人的伪影。为了解决大型运动问题并有效利用全局时间上下文,我们将具有可变形对齐方式的状态更新单元嵌入到ConvLSTM中。在这里插入图片描述在这里插入图片描述
其中, g h g^h gh g c g^c gc是几个卷积层的函数, h t − 1 a h_{t-1}^{a} ht1a c t − 1 a c_{t-1}^{a} ct1a分别为对齐的隐藏状态和cell。为了充分探索时间信息,我们以双向方式使用可变形ConvLSTM。我们将时间反转的特征图输入到相同的可变形ConvLSTM中,并将来自前向通过和后向通过的隐藏状态连接起来,作为用于HR帧重构的最终隐藏状态 h t h_t ht

帧重建与实现细节

为了重建HR视频帧,我们使用一个时间共享的合成网络,该网络将各个隐藏状态 h t h_t ht作为输入去输出相对应的HR帧。它有 k 2 k_2 k2个堆叠的残差块,并具有PixelShuffle子像素放大模块。
帧重建部分损失函数如下:在这里插入图片描述
其中, ϵ = 1 \epsilon=1 ϵ=1x 1 0 − 3 10^{-3} 103。在我们的模型中, k 1 k_1 k1=5, k 2 k_2 k2=40。我们随机裁剪一系列大小为32x32的下采样图像块,取出奇索引的4帧作为LFR和LR输入,并取出相应的连续7帧序列作为监督。 此外,我们通过随机旋转90,180和270以及水平翻转来执行数据增强。 我们在中采用金字塔,级联和可变形(PCD)结构,以采用可变形对齐并应用Adam优化器,在该优化器中,每批次将学习率从4e-4降低到1e-7,批量大小设置为24,并在2个Nvidia Titan XP GPU上进行训练。
数据集我们使用Vimeo-90K作为训练集,包括60,000多个7帧训练视频序列。
我们使用Viemo-90K作为训练集。Vid4和Vimeo测试集被用作评估数据集。 为了测量不同方法在不同运动条件下的性能,我们将Vimeo测试集分为中的快动作,中动作和慢动作集,分别包含1225、4977和1613个视频剪辑。 我们从原始的中速运动集中删除了5个视频片段,从慢速运动集中删除了3个片段,它们连续具有全黑背景帧,从而导致PSNR达到无限值。我们通过双三次生成LR帧,下采样因子为4,并使用奇数索引的LR帧作为输入来预测相应的连续HR和HFR帧。

消融实验

可变形ConvLSTM的有效性:在这里插入图片描述
双向DConvLSTM机制的有效性:
在这里插入图片描述

量化评估

在这里插入图片描述

仅供学习使用,请勿转载。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值