S. Lee, et al., Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation
摘要
视频插值是在给定两个连续帧的情况下合成中间帧的任务。大多数以前的研究集中在适当的框架上扭曲的扭曲操作和细化模块帧。这些研究是在自然只有连续动作的视频。然而,许多实用的视频包含很多不连续的动作,例如聊天窗口、水印、GUI元素或字幕。我们提出了三种技术来扩展两个连续帧之间的过渡,以解决这些问题。首先是一种可以分离连续和不连续运动区域的新架构。我们还提出一个称为图文混合的新型数据增强策略 (FTM) 使我们的模型学习更一般的场景。最后,我们提出损失函数来监督数据增强的不连续运动区域。我们收集了一个由一些手机游戏组成的特殊数据集和聊天视频。我们证明了我们的方法显著提高了特殊数据集上视频的插值质量。此外,我们的模型优于仅包含连续运动的自然视频数据集的最新方法,例如DAVIS和UCF101。
1. 介绍
视频插值是生成的低级视觉任务额外的帧以提高视频质量。当每个连续输入帧的时间间隔固定时,我们可以得到更流畅的视频,当帧率固定时,我们可以得到慢动作视频。这也可以应用于通过控制帧速率、视图合成或其他实际应用程序的视频压缩。
以前的大部分作品都集中在视频中物体的运动。他们利用估计的流图,内核或预训练的光流模型将每个对象放置在其在相邻帧上的位置的中间。然而,许多实用视频都包含特殊对象,例如作为GUI元素和字幕,它们不会连续移动。此外,即使是没有这些元素的典型视频包含亮度变化和阴霾等的一些特殊场景。因此,连续帧之间转变的概念应进一步扩展运动范围。
在本文中,我们提出了三种技术来处理包含连续和不连续的视频。首先,我们提出了新的数据扩充,称为图文混合(FTM),由图文混合(FM)和文本混合(TM)组成。FM是一种添加固定随机图形的扩充,TM是添加不连续移动随机文本的扩充。网络可以在没有任何额外数据集的情况下使用FTM学习连续和不连续的运动。其次,我们提出了一种基于 AdaCoF的架构,它可以在给定每一帧的情况下分离连续和不连续运动的区域。我们的框架估计了一个称为不连续图的图,它确定每个像素的运动是连续的还是不连续的。由于仅通过两帧很难判断对象是否不连续移动,因此我们将四帧作为网络的输入。最后,如果我们同时使用 FTM 和不连续图,则可以通过给出不连续图的真实情况来监督模型。因此我们提出一个额外的损失函数来引导我们的模型估计更清晰的不连续图。
我们构建了一个名为Game-graphic的特殊数据集来评估我们的方法和竞争工作处理不连续的运动。我们的方法显示出与其他相比显着改善的结果方法。此外,我们的方法在仅包含连续运动的典型测试数据集(如DAVIS和UCF101 数据集)上优于那些方法。我们的主要贡献可以总结如下:
• 数据扩充。我们提出了一种新的数据扩充策略,称为FTM,可以简单地应用到现有的视频数据集,使模型同时学习连续和不连续的运动。
• 新架构。我们提出了一个新的框架可以区分连续和不连续的运动。
• 表现。我们提出的网络不仅在包含不连续运动的数据集上,而且在所有其他自然测试视频上都实现了一般视频帧插值的最先进性能。
2. 相关工作
大多数现有的视频帧插值算法由运动估计和运动补偿两部分组成。运动估计模块估计两个连续帧之间的像素级对应关系以获得运动信息。然后是运动补偿部分根据估计的运动扭曲帧。最近的视频帧插值研究利用深度神经网络(DNN)以两种方式获得高质量的结果。
一种是端到端的学习方法。在一些工作中训练他们的神经网络同时执行运动估计和补偿。Niklaus 等人提出了为输入帧的所有像素估计大内核权重的网络。然后他们自适应地将输入帧与估计的内核进行卷积以获得输出帧。由于较大的内核尺寸需要过多的权重,Niklaus 等人通过使用可分离内核解决了这个问题。另一方面,Liu等人和Jiang等人提出了估计密集流图的神经网络,该图由直接指向参考像素的向量组成。但是,上述方法存在局限性,即基于内核的方法无法处理超出内核的运动,而基于流的方法仅针对每个输出像素引用一个像素。为了解决问题,Lee 等人将这两种方法结合使用可变形卷积。一些方法建议直接估计中间值的神经网络没有运动补偿的帧。龙等人训练一个简单的 U-Net来估计中间帧,但是结果往往是模糊的。因此Choi等人提出一种基于通道注意力的新架构来获得更清晰的结果。
另一种是基于光流的方法。另一种是基于光流的方法。最近,已经引入了许多估计高质量光流图的方法。因此,几项工作利用光流图作为运动信息,并训练额外的网络进行运动补偿或输出帧细化。Niklaus等人利用从ResNet-18中提取的上下文信息以及光流,并使用他们自己的基于GridNet的神经网络来细化扭曲的帧。使用预训练的光流有一个问题,即流图由从输入帧开始的向量组成。然而,从输出帧开始的向量对于清晰地扭曲帧是必要的。为了解决这个问题,鲍等人使用从基于沙漏架构的单声道深度估计网络获得的深度图来清楚地反转光流图。Niklaus等人建议使用SoftMax函数组合所有投影到相同位置的像素值。
有一些研究扩展了要插值的视频的领域。Liu等人提出了二次视频插值方法,该方法利用四帧不仅涵盖线性运动,还涵盖二次运动。但是,它们仍然不能处理不连续的运动。最后,Siyao等人提出网络可以插入卡通视频。然而他们专注于卡通图像的特征,而不是动画的运动视频。在本文中,我们扩展了视频插值任务,不仅涵盖了自然运动,还涵盖了帧之间的不连续过渡。
3. 提出的方法
给定连续的视频帧I0、I1、I2和I3,我们的研究重点是通过适