[VFI]A Unified Pyramid Recurrent Network for Video Frame Interpolation

视频帧插值的统一金字塔循环网络

Xin Jin1 Longhai Wu1 Jie Chen1 Youxin Chen1 Jayoon Koo2 Cheul-hee Hahm2
1Samsung Electronics (China) R&D Center 2Samsung Electronics, South Korea
paper, code, CVPR2023

Abstract

本文提出了一种新的用于帧插值的统一金字塔循环网络。在一个灵活的金字塔框架中,UPR-Net利用轻量级递归模块进行双向流估计和中间帧合成。在每个金字塔级别,它利用估计的双向流来生成帧合成的前扭曲表示;在金字塔层上,它支持光流和中间帧的迭代细化。

1. Introduction

Motivation

  1. 在普通的flow引导合成pipeline中,光流通常由金字塔网络从粗到细估计,而中间帧仅由合成网络合成一次。尽管在低分辨率视频上有很好的性能,但这种做法错过了迭代细化高分辨率输入插值的机会。
  2. 其次,对于大范围运动案例,一个重要的问题被以前的作品忽略了,尽管当估计的运动在视觉上是可信的时,在许多情况下,翘曲帧中明显的伪影(例如,前翘曲帧中的大孔)也会降低插值性能。
  3. 最后,现有的方法通常依赖于较大的模型架构来实现良好的性能,不利于部署在资源有限的平台上,例如移动设备。

Contribution

  1. UPR-Net允许在测试中定制金字塔级别的数量来估计非常大的运动。但是,它利用金字塔递归网络进行粗到细的帧合成,并在一个金字塔递归网络中统一运动估计和帧合成
  2. 证实了从粗到细的迭代合成可以显著提高帧插值在大运动情况下的鲁棒性。在高分辨率金字塔水平,前翘帧可能由于大的运动插值结果差。通过向帧合成模块提供从以前的低分辨率金字塔水平上采样的中间帧估计,这个问题可以被解决。
  3. 光流和帧合成模块都是非常轻量级的。在每个金字塔层上,UPR-Net首先提取CNN特征,然后构造一个volume,同时进行双向流估计。它从正向扭曲的输入帧及其CNN特征中预测改进的中间帧,以及上采样的中间帧估计。

在这里插入图片描述

2. Related Work

Pyramid recurrent optical flow estimator

Coarse-to-fine image synthesis

Artifacts in warped frames

3. Our Approach

在这里插入图片描述

3.1. Unified Pyramid Recurrent Network

Fig. 2所示整体的UPR-Net。给定一对连续的帧 I 0 , I 1 I_{0}, I_{1} I0,I1和期望的时间步长 t t t(0≤t≤1),目标是合成不存在的中间帧 I t I_{t} It。UPR-Net通过跨 L L L图像金字塔层的迭代细化过程完成任务,从顶层的下采样帧 I 0 L − 1 I_{0}^{L−1} I0L1 I 1 L − 1 I_{1}^{L−1} I1L1,到原始输入帧 I 0 0 I^{0}_{0} I00 I 1 0 I^{0}_{1} I10的底部(零)金字塔层。

在每个金字塔级别,UPR-Net使用一个特征编码器来提取两个输入帧的多尺度CNN特征。然后,利用双向flow模块对特征编码器最后一层的特征和上采样的光流进行处理,得到精细化的双向流。改进的光流用于前扭曲输入帧和多尺度CNN特征。将扭曲表示与上采样相结合,采用帧合成模块生成精细的中间帧。重复这个估计过程,直到在底部金字塔水平产生最终的插值。

3.2. Recurrent Frame Interpolation Modules

循环结构由三个轻量级模块组成: feature encoder, bi-directional flow module, 和frame synthesis module。

Feature encoder.
在每个金字塔层次上,首先使用一个特征编码器来提取输入帧的多尺度特征。特性编码器有三个卷积阶段:阶段0、阶段1和阶段2。每个阶段由四个卷积层组成,第1阶段和第2阶段的第一层进行降采样。使用来自每个阶段的最后一个卷积层的特性。

Bi-directional flow module.

在这里插入图片描述

F 0 → 1 l + 1 F^{l+1}_{0\to1} F01l+1 F 1 → 0 l + 1 F^{l+1}_{1\to0} F10l+1表示 l + 1 l+1 l+1级的细化双向光流。在第1个图像金字塔层,首先通过×2上采样 F 0 → 1 l + 1 F^{l+1}_{0\to1} F01l+1 F 1 → 0 l + 1 F^{l+1}_{1\to0} F10l+1 F ^ 0 → 1 l = u p 2 ( F 0 → 1 l + 1 ) \hat{F}^{l}_{0\to1}=up_{2}(F^{l+1}_{0\to1}) F^01l=up2(F01l+1) F ^ 1 → 0 l = u p 2 ( F 1 → 0 l + 1 ) \hat{F}^{l}_{1\to0}=up_{2}(F^{l+1}_{1\to0}) F^10l=up2(F10l+1)来初始化双向流。特别是,在顶层的初始流量被设置为零。基于初始流,通过线性缩放获得从输入帧 I 0 l I^{l}_{0} I0l I 1 l I^{l}_{1} I1l到隐藏的中间帧 I 0.5 l I^{l}_{0.5} I0.5l的光流: F 0 → 0.5 l = 0.5 ⋅ F ^ 0 → 1 l F^{l}_{0\to0.5}=0.5\cdot\hat{F}^{l}_{0\to1} F00.5l=0.5F^01l, F 1 → 0.5 l = 0.5 ⋅ F ^ 1 → 0 l F^{l}_{1\to0.5}=0.5\cdot\hat{F}^{l}_{1\to0} F10.5l=0.5F^10l

使用 F ^ 0 → 0.5 l \hat{F}^{l}_{0\to0.5} F^00.5l F ^ 1 → 0.5 l \hat{F}^{l}_{1\to0.5} F^10.5l,将CNN的特征 C 0 l , 2 C^{l,2}_{0} C0l,2 C 1 l , 2 C^{l,2}_{1} C1l,2向前扭曲到中间帧,以对齐它们的像素。然后,利用翘曲特征构造了一个偏相关体积,并使用一个6层CNN来预测重新定义的双向流 F 0 → 1 l F^{l}_{0\to1} F01l F 1 → 0 l F^{l}_{1\to0} F10l。特别是,CNN预测器的输入是相关体积、扭曲特征、初始流 F ^ 0 → 1 l \hat{F}^{l}_{0\to1} F^01l F ^ 1 → 0 l \hat{F}^{l}_{1\to0} F^10l的连接,以及来自之前金字塔级CNN预测器第5层的上采样特征。由于扭曲特征的输入帧分辨率为1/4,因此预测的光流分辨率也为1/4。使用双线性插值法将光流上采样到原始尺度。

Frame synthesis module.

在这里插入图片描述
视频帧合成模块是基于一个U-Net结构的。编码器部分有三个卷积阶段,每个阶段由三个卷积层组成,第二阶段和第三阶段的第一层进行降采样。解码器部分也有三个卷积阶段,其中有两个转置卷积层用于上采样。

在金字塔 l l l级,给定细化的双向流 F 0 → 1 l F^{l}_{0\to1} F01l F 1 → 0 l F^{l}_{1\to0} F10l,通过线性缩放获得从输入帧 I 0 l I^{l}_{0} I0l I 1 l I^{l}_{1} I1l到目标帧 I t l I^{l}_{t} Itl的光流: F 0 → t l = t ⋅ F 0 → 1 l , F 1 → t l = ( 1 − t ) ⋅ F 1 → 0 l F^{l}_{0\to t}=t\cdot F^{l}_{0\to1}, F^{l}_{1\to t}=(1-t)\cdot F^{l}_{1\to0} F0tl=tF01l,F1tl=(1t)F10l。使用 F 0 → t l F^{l}_{0\to t} F0tl F 1 → t l F^{l}_{1\to t} F1tl,向前扭曲输入帧 I 0 l I^{l}_{0} I0l I 1 l I^{l}_{1} I1l,以及它们的多尺度上下文特性 { C 0 l , 0 , C 1 l , 0 } \{C^{l,0}_{0}, C^{l,0}_{1}\} {C0l,0,C1l,0} { C 0 l , 1 , C 1 l , 1 } \{C^{l,1}_{0}, C^{l,1}_{1}\} {C0l,1,C1l,1} { C 0 l , 2 , C 1 l , 2 } \{C^{l,2}_{0}, C^{l,2}_{1}\} {C0l,2,C1l,2}。此外,通过对之前的 l + 1 l+1 l+1水平的插值进行上采样,生成中间帧的初始估计 I ^ t l \hat{I}^{l}_{t} I^tl I ^ t l = u p 2 ( I t l + 1 ) \hat{I}^{l}_{t}=up_{2}(I^{l+1}_{t}) I^tl=up2(Itl+1)。在顶层,初始估计被设置为两个扭曲帧的平均值。在此基础上,向合成模块的第一个编码器阶段提供了扭曲帧、中间帧 I ^ t l \hat{I}^{l}_{t} I^tl的初始估计、原始输入帧和缩放双向流 F 0 → t l F^{l}_{0\to t} F0tl F 1 → t l F^{l}_{1\to t} F1tl。将扭曲的上下文特征提供给第二个和第三个编码器阶段,以及第一个解码器阶段,以提供多尺度的上下文线索。

帧合成模块的输出包括两个映射 M 0 l M^{l}_{0} M0l M 1 l M^{l}_{1} M1l,用于融合两个正向弯曲的帧 I 0 → t l I^{l}_{0\to t} I0tl I 1 → t l I^{l}_{1\to t} I1tl,以及一个剩余图像 Δ I t l \Delta I^{l}_{t} ΔItl,用于进一步细化。得到细化的中间帧 I t l I^{l}_{t} Itl通过:
I t l = ( 1 − t ) ⋅ M 0 l ⊙ I 0 → t l + t ⋅ M 1 l ⊙ I 1 → t l ( 1 − t ) ⋅ M 0 l + t ⋅ M 1 l + Δ I t I^{l}_{t}=\frac{(1-t)\cdot M^{l}_{0}\odot I^{l}_{0\to t}+t\cdot M^{l}_{1}\odot I^{l}_{1\to t}}{(1-t)\cdot M^{l}_{0}+t\cdot M^{l}_{1}}+\Delta I_{t} Itl=(1t)M0l+tM1l(1t)M0lI0tl+tM1lI1tl+ΔIt
⊙ \odot 表示元素级相乘。

大范围运动的迭代综合分析。

在这里插入图片描述

对于普通合成,实际的合成只在底层执行,因为在以前的水平上的插值没有路径来影响底层的框架合成。通过综合比较插值帧,在大运动情况下的一般综合和迭代综合,得出以下经验结论。

  1. 当使用平面合成进行插值时,由于前向翘曲帧中的大运动而产生的明显伪影可能会导致插值帧中明显的伪影。图5显示了一个典型的示例。
  2. 粗到精细的迭代合成支持稳健的插值,即使扭曲的帧也有明显的伪影(见图5)。假设在较低分辨率的金字塔水平上合成的上采样插值,由于较小的运动幅度,可能有较少或没有伪影。因此,它可以指导合成模块在更高分辨率水平上产生鲁棒插值。
  3. 假设得到了图6中所示的证据的支持,其中对降低的分辨率插值了相同的例子。我们发现,在1/8的分辨率下,普通合成也提供了良好的插值,因为运动幅度要小得多。迭代合成在所有尺度上都提供了良好的插值,因为它利用了来自低分辨率级别的插值。
    在这里插入图片描述

5. Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值