时空超分辨论文阅读笔记(一)---- Zooming Slow-Mo

时空超分辨论文阅读笔记(一)---- Zooming Slow-Mo

CVPR 2020

论文地址:https://arxiv.org/abs/2002.11616
代码地址:https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

Abstract

关于时空超分辨(STVSR)模型的设计策略:

  • 二阶段模型(two-stage)
  • 一阶段模型(one-stage)

模型设计

图1 模型结构图
1. 模型主要由四个部分组成:
  • 特征提取模块(feature extractor)

    ​ 该模块由一个Conv layer + k 1 k_1 k1个残差块组成,负责提取输入帧特征。

  • 中间帧特征插值模块(frame feature temporal interpolation module)

    ​ 该模块根据输入的特征序列信息 { F 2 t − 1 L } t = 1 n + 1 \{F^L_{2t-1}\}^{n+1}_{t=1} { F2t1L}t=1n+1,预测输出中间帧序列的特征 { F 2 t L } t = 1 n \{F^L_{2t}\}^{n}_{t=1} { F2tL}t=1n

  • Deformable ConvLSTM

    ​ 该模块则是对整个特征序列进行一个时间对齐和特征聚合 。

  • 高分辨率帧重建模块(HR frame reconstructor)

    ​ 利用经过时空融合后的特征序列生成最后的高清高分辨视频序列

2.主要模块
2.1 中间帧特征插值模块

​ 二阶段方法(VFI+VSR)中往往是在像素级(pixel-wise)上先生成中间帧,然后对插帧后的序列进行超分辨,为了以one-stage的方式完成插帧和超分,该模块对输入帧特征进行采样融合来生成中间帧特征。根据插帧的经验,要生成中间帧特征,需要利用上下文特征间的双向运动信息来近似估计两侧到中间的运动信息(forward motion information and backwarp motion information),然后再进一步融合这两侧运动信息和上下文特征从而生成中间帧特征。

​ 至于如何估计上下文特征间的双向运动信息,该模块采用了可变形卷积,认为其不规则的采样区域,具备比较强大的对几何物体运动建模的能力,能够从上下文特征中捕捉比较丰富的运动信息,以更好应对包含复杂运动和大幅运动的视频场景,运动信息估计模块如下图所示:

图2 可变形卷积估计运动信息近似生成中间特征

​ 值得注意的是这里的blending操作采用的是简单的线性混合函数来结合 T 1 T_1 T1以及 T 3 T_3 T3,具体公式如下:
F 2 L = α ∗ T 1 ( F 1 L , Φ 1 ) + β ∗ T 3 ( F 3 L , Φ 3 ) F^L_2 = \alpha*T_1(F^L_1,\Phi_1)+\beta*T_3(F^L_3,\Phi_3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

下酒番陪绅士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值