之前的视频插帧方法(包括Phase[1]、DVF[2]、SepConv[3]和SuperSloMo[4]等)是假设相邻帧之间的运动是匀速的,即沿直线以恒定速度移动。然而,真实场景中的运动通常是复杂的、非线性的,传统线性模型会导致插帧的结果不准确。以抛橄榄球的运动视频为例(如下图1),真实运动中的轨迹是一条抛物线,如果在第0帧和第1帧之间进行插帧,线性模型方法模拟出来轨迹是线性轨迹(右二),与真实运动轨迹(右三)相差较大。
图1 传统线性模型与二次方视频插帧结果对比
但通过二次方视频插帧模型模拟出来的运动轨迹是抛物线形(图1右一),更逼近真实轨迹。也就是说,它能够更准确地估计视频相邻帧之间的运动并合成中间帧,从而获得更精准的插帧结果。
二次方插帧是怎样“炼”成的?
研究团队构建了一个可以感知视频运动加速度的网络模型。与传统线性插帧模型利用两帧输入不同,它利用了相邻四帧图像来预测输入帧到中间帧的光流,简易的流程图如下:
图2 二次方插帧模型的流程
、 、 和 是输入视频连续的四帧。给定任意时刻t(0<t<1),该模型将最终生成t时刻的中间帧。而要得到 ,就需要更深入了解其中的两个关键技术:二次方光流预测和光流逆转。
其中,二次方光流预测,就是中学物里面常讲到的求匀变速运动位移的过程:假设在[-1, 1]时刻的运动是匀加速运动,那么可以利用位移推测出0时刻的速度和区间内的加速度,即可以计算出0时刻到任意t时刻的位移:
图3:视频中物体运动的示意图
, , , , 分别表示物体 、 、 和 中的位置。
通过以上方法,对称地我们可以计算出 。此时,我们得到了含有加速度信息 和。为了生成高质量的中间帧,我们需要得到反向光流 和。为此研究团队提出一个可微分的“光流逆转层”来预测和。通过以下转换公式可以高效的将 和和转化为 和,但是可能会造成逆转的光流在运动边界处出现强烈的振铃效应(见图4)。
为了消除这些强烈震荡的部分,研究团队提出了一种基于深度神经网络的、能够对逆转后光流进行自适应采样的滤波器(Adaptive Flow Filter)。
实验证明,自适应滤波器(ada.)能够明显削弱光流逆转造成的振铃效应,从而改善最终合成帧的质量。
图4 自适应滤波器能够改善逆转的光流和合成的中间帧的质量