论文阅读笔记(1):Deep Animation Video Interpolation in the Wild——野外深度动画视频插值(2021CVPR)

论文名称:Deep Animation Video Interpolation in the Wild
会议:2021CVPR会议


在这里插入图片描述
图片1:动画视频插值的经典案例。我们的方法能够正确的估计大运动光流,并恢复内容,然而其他方法无法处理这类运动。

摘要

在动画产业中,动画视频通常是在低帧率的情况下制作的,手绘动画帧的成本高、耗时长。因此,需要开发能够自动插入动画帧之间的计算模型。然而,现有的视频插帧方法无法产生令人满意的动画数据结果。与自然视频相比,动画视频具有两个独特的特征使插帧变得困难:1)动画由线条和光滑的色彩块组成。光滑的区域缺少纹理,就难以估计动画视频的准确动作。2)漫画通过夸张来表现故事。有些动作是非线性的并且非常大。本文首次正式定义并研究了动画视频插帧问题。为了解决上述挑战,我们提出了一个有效的框架AnimeInterp,它通过从粗到细的方式包含两个专用模块。具体来说,1)分段引导匹配(Segment-Guided Matching)通过利用分段一致的色块之间的全局匹配来解决“缺乏纹理”的挑战。2)循环流优化(Recurrent Flow Refinement )通过使用类似变压器的架构进行循环预测,解决“非线性和极大运动”的挑战。为了便于全面训练和评估,我们构建了一个大型动画三元组数据集ATD-12K,其中包含12000个有丰富注释的三元组。大量实验表明,我们的方法优于现有的最优动画视频插帧方法。值得注意的是,AnimeInterp 在野外动画场景中展现出良好的感知质量和鲁棒性。建议的数据集和代码可在此获取:https://github.com/lisiyao21/AnimeInterp/。

一、简介

在动画行业中,动画视频是由专业动画师使用复杂的手绘图和精确的程序进行制作。手动绘制视频的每一帧都需要花费大量的时间,从而导致过高成本。在实际操作中,动画制作者通常会将一幅画复制两三遍,以此降低成本,这样会导致动画视频实际帧率偏低。因此,非常必要开发计算机算法来自动插入中间动画帧。
最近几年,视频插值在自然视频方面取得了较大的进展。然而,在动画中,现有的视频插值方法还不能产生满意的中间帧。如图1所示电影《追逐失落声音的孩子》中的一个例子,由于不正确的运动估计,当前最先进的方法无法生成一件完整的行李,如下图左下角所示。这里的挑战源于动画视频的两个独特特性:1)首先,卡通图像由清晰的草图和线条组成,将图像分割成平滑的色块。在一个片段中的像素是相似的,产生的纹理不足以匹配两帧之间的相应图像,因此增加了预测准确运动的难度。2)其次,卡通动画通过使用夸张的表达方式追求艺术效果,导致相邻两帧之间非线性和极大运动。图二(a)和(b)描绘了两个典型案例,分别说明了这些挑战。由于上述困难,动画中的视频插帧仍然是一项具有挑战性的任务。
图二   testing
图 2:动画视频插值的两个挑战。 (a) 分段平滑动画缺乏纹理。 (b) 非线性和极大的运动。
在这项工作中,我们开发了一种有效且有原则的动画视频插值方法。我们提出了一个有效框AnimeInterp来解决上述两个挑战。AnimeInterp由两个专用模块组成:Segment-Guided Matching (SGM) 模块和 Recurrent Flow Refinement (RFR) 模块,旨在以粗到细的方式预测动画的准确运动。更具体的说,提出的SGM模块使用按轮廓分割的颜色块之间的全局语义匹配来计算粗片光流。由于属于一个段的相似像素被看作一个整体,SGM模型能够避免在光滑区域不匹配导致的局部最小值,解决了“缺乏纹理”的问题。为了解决动画中”非线性和极大动作“的挑战,SGM估计的分段流通过名为Recurrent Flow Refinement的类似Transformer的网络进一步增强。如图1所示,我们的方法能够更好的估计大位移下行李箱的流动,并产生完整的中间帧。
构建大型动画三元组数据集ATD-12K,为了便于在卡通视频的插帧方法上面进行综合训练和评估。与其他只有单个图像组成的动画数据集不同的是,ATD-12K数据集包含从30部不同风格的动画电影中选出的12000帧三元组,总长度超过25小时。除了多样性之外,我们的测试集根据运动和遮挡的大小分为三个难度级别。我们还提供有关运动类别的注释以供进一步分析。
这项工作的贡献可以总结如下:1)我们首次正式定义并研究了动画视频插值问题。这个问题对学术界和工业界都具有重要意义。2)我们提出了一种有效的AnimeInterp动画插值框架,具有两个专用模块解决”缺少纹理“和”非线性和极大运动“的挑战。大量实验表明,AnimeInterp在数量和质量方面都优于现有的最先进方法。3)我们构建了一个名为ATD-12K的大型卡通三元组数据集,该数据集具有丰富的内容多样性,代表许多类型的动画,以测试动画视频插值方法。ATD-12K的数据规模和丰富的注释将会为未来动画研究铺平道路。

二、相关工作

视频插值:视频插值在最近几年被广泛研究。在[16]中Meyer等人提出了一种基于相位的视频插帧方案,该方案在具有小位移的视频上表现出色。在[19,20]中,Niklaus等人设计了一个基于内核的框架,通过相邻帧的相应面片进行卷积,对插帧像素进行采样。然而,由于内核大小的限制,基于内核的框架仍然不能处理大型移动。为了解决视频中的大运动,许多研究使用光流进行视频插帧。Liu等人在[15]中预测3D体素流,以对中间帧的输入进行采样。类似的,Jiang等人在[9]建议联合估计双向流和用于多帧插值的遮挡掩模。此外,一些研究致力于改善给定双向流的扭曲和合成[2.1.17.18],并使用高阶运动信息来近似真实视频[33.5]。除了在图像上使用像素外,在视频插帧中还探索了深度特征上的“特征流”[8]。虽然现有的方法在插帧真实世界的视频方面取得了巨大的成功,但他们无法处理动画的大型非线性运动。因此,动画视频插帧仍然没有解决,

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值