论文阅读笔记（1）：Deep Animation Video Interpolation in the Wild——野外深度动画视频插值（2021CVPR）

最新推荐文章于 2023-09-18 10:01:19 发布

长夜营灯

最新推荐文章于 2023-09-18 10:01:19 发布

阅读量1.4k

点赞数

文章标签：动画深度学习 python

本文链接：https://blog.csdn.net/qq_40619273/article/details/120759679

版权

论文名称：Deep Animation Video Interpolation in the Wild
会议：2021CVPR会议

图片1：动画视频插值的经典案例。我们的方法能够正确的估计大运动光流，并恢复内容，然而其他方法无法处理这类运动。

摘要

在动画产业中，动画视频通常是在低帧率的情况下制作的，手绘动画帧的成本高、耗时长。因此，需要开发能够自动插入动画帧之间的计算模型。然而，现有的视频插帧方法无法产生令人满意的动画数据结果。与自然视频相比，动画视频具有两个独特的特征使插帧变得困难：1）动画由线条和光滑的色彩块组成。光滑的区域缺少纹理，就难以估计动画视频的准确动作。2）漫画通过夸张来表现故事。有些动作是非线性的并且非常大。本文首次正式定义并研究了动画视频插帧问题。为了解决上述挑战，我们提出了一个有效的框架AnimeInterp，它通过从粗到细的方式包含两个专用模块。具体来说，1）分段引导匹配（Segment-Guided Matching）通过利用分段一致的色块之间的全局匹配来解决“缺乏纹理”的挑战。2）循环流优化（Recurrent Flow Refinement ）通过使用类似变压器的架构进行循环预测，解决“非线性和极大运动”的挑战。为了便于全面训练和评估，我们构建了一个大型动画三元组数据集ATD-12K，其中包含12000个有丰富注释的三元组。大量实验表明，我们的方法优于现有的最优动画视频插帧方法。值得注意的是，AnimeInterp 在野外动画场景中展现出良好的感知质量和鲁棒性。建议的数据集和代码可在此获取：https://github.com/lisiyao21/AnimeInterp/。

一、简介

在动画行业中，动画视频是由专业动画师使用复杂的手绘图和精确的程序进行制作。手动绘制视频的每一帧都需要花费大量的时间，从而导致过高成本。在实际操作中，动画制作者通常会将一幅画复制两三遍，以此降低成本，这样会导致动画视频实际帧率偏低。因此，非常必要开发计算机算法来自动插入中间动画帧。
最近几年，视频插值在自然视频方面取得了较大的进展。然而，在动画中，现有的视频插值方法还不能产生满意的中间帧。如图1所示电影《追逐失落声音的孩子》中的一个例子，由于不正确的运动估计，当前最先进的方法无法生成一件完整的行李，如下图左下角所示。这里的挑战源于动画视频的两个独特特性：1）首先，卡通图像由清晰的草图和线条组成，将图像分割成平滑的色块。在一个片段中的像素是相似的，产生的纹理不足以匹配两帧之间的相应图像，因此增加了预测准确运动的难度。2）其次，卡通动画通过使用夸张的表达方式追求艺术效果，导致相邻两帧之间非线性和极大运动。图二（a）和（b）描绘了两个典型案例，分别说明了这些挑战。由于上述困难，动画中的视频插帧仍然是一项具有挑战性的任务。
图二 testing
图 2：动画视频插值的两个挑战。 (a) 分段平滑动画缺乏纹理。 (b) 非线性和极大的运动。
在这项工作中，我们开发了一种有效且有原则的动画视频插值方法。我们提出了一个有效框AnimeInterp来解决上述两个挑战。AnimeInterp由两个专用模块组成：Segment-Guided Matching (SGM) 模块和 Recurrent Flow Refinement (RFR) 模块，旨在以粗到细的方式预测动画的准确运动。更具体的说，提出的SGM模块使用按轮廓分割的颜色块之间的全局语义匹配来计算粗片光流。由于属于一个段的相似像素被看作一个整体，SGM模型能够避免在光滑区域不匹配导致的局部最小值，解决了“缺乏纹理”的问题。为了解决动画中”非线性和极大动作“的挑战，SGM估计的分段流通过名为Recurrent Flow Refinement的类似Transformer的网络进一步增强。如图1所示，我们的方法能够更好的估计大位移下行李箱的流动，并产生完整的中间帧。
构建大型动画三元组数据集ATD-12K，为了便于在卡通视频的插帧方法上面进行综合训练和评估。与其他只有单个图像组成的动画数据集不同的是，ATD-12K数据集包含从30部不同风格的动画电影中选出的12000帧三元组，总长度超过25小时。除了多样性之外，我们的测试集根据运动和遮挡的大小分为三个难度级别。我们还提供有关运动类别的注释以供进一步分析。
这项工作的贡献可以总结如下：1）我们首次正式定义并研究了动画视频插值问题。这个问题对学术界和工业界都具有重要意义。2）我们提出了一种有效的AnimeInterp动画插值框架，具有两个专用模块解决”缺少纹理“和”非线性和极大运动“的挑战。大量实验表明，AnimeInterp在数量和质量方面都优于现有的最先进方法。3）我们构建了一个名为ATD-12K的大型卡通三元组数据集，该数据集具有丰富的内容多样性，代表许多类型的动画，以测试动画视频插值方法。ATD-12K的数据规模和丰富的注释将会为未来动画研究铺平道路。

二、相关工作

视频插值：视频插值在最近几年被广泛研究。在[16]中Meyer等人提出了一种基于相位的视频插帧方案，该方案在具有小位移的视频上表现出色。在[19,20]中，Niklaus等人设计了一个基于内核的框架，通过相邻帧的相应面片进行卷积，对插帧像素进行采样。然而，由于内核大小的限制，基于内核的框架仍然不能处理大型移动。为了解决视频中的大运动，许多研究使用光流进行视频插帧。Liu等人在[15]中预测3D体素流，以对中间帧的输入进行采样。类似的，Jiang等人在[9]建议联合估计双向流和用于多帧插值的遮挡掩模。此外，一些研究致力于改善给定双向流的扭曲和合成[2.1.17.18]，并使用高阶运动信息来近似真实视频[33.5]。除了在图像上使用像素外，在视频插帧中还探索了深度特征上的“特征流”[8]。虽然现有的方法在插帧真实世界的视频方面取得了巨大的成功，但他们无法处理动画的大型非线性运动。因此，动画视频插帧仍然没有解决，

最低0.47元/天解锁文章

长夜营灯

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（1）：Deep Animation Video Interpolation in the Wild——野外深度动画视频插值（2021CVPR）

论文名称：Deep Animation Video Interpolation in the Wild野外深度动画视频插值（选自2021CVPR会议）论文链接：https这里写目录标题摘要一、简介二、相关工作三、ADK-12K数据集3.1数据集构建3.2注解四、使用方法4.1分段引导匹配4.2循环细流化网络4.3框架变形和合成4.4学习体会五、实验5.1对比结果5.2消融研究5.3进一步分析六、总结参考文献图片1：动画视频插值的经典案例。我们的方法能够正确的估计大运动光流，并恢复内容，然而竞争方法无
复制链接

扫一扫