计算机视觉动画视频插帧难点、流程及改进

0  引言

在动画行业中,动画视频是由专业动画师使用复杂的手绘图和精确的程序进行制作。手动绘制视频的每一帧都需要花费大量的时间,过高成本的同时无法产生令人满意的动画数据效果。本文结合Deep Animation Video Interpolation in the Wild论文,通过论文分析,总结其思想和困难。

1  动画视频插帧

1. 1 动画视频插帧存在的难点

1)动画由线条和光滑的色彩块组成。光滑的区域缺少纹理,就难以估计动画视频的准确动作。

2)漫画通过夸张来表现故事。有些动作是非线性的并且非常大。本文首次正式定义并研究了动画视频插帧问题。

1. 2.1 总体框架

构建了以下两个模块解决了上述插帧存在的难点。

(1)SGM

提出的SGM模块使用按轮廓分割的颜色块之间的全局语义匹配来计算粗片光流。由于属于一个段的相似像素被看作一个整体,SGM模型能够避免在光滑区域不匹配导致的局部最小值,解决了“缺乏纹理”的问题。为了解决动画中”非线性和极大动作“的挑战,SGM估计的分段流通过名为Recurrent Flow Refinement的类似Transformer的网络进一步增强。

    (2)RFR

解决了“非线性和超大运动”挑战,通过使用类似Transformer的网络进行重复迭代构建细化运动用来生成中间的帧。

1. 2.1 SGM具体细节

色块分割:采用拉普拉斯滤波器来提取动画帧的轮廓。 然后轮廓填充以生成颜色块。 得到的分割图具有H×W个元素 , 每个色块都标有一个编号。将输入I0和I1的分割分别记为S0和S1。S0(i)表示I0的第i个彩色块中的像素点。

特征提取:我们将输入I0和I1输入到预先训练的模型中。然后,我们通过提出的超像素池将属于某一段的特征集合起来。通过下采样分割图汇集较小尺度的特征,并将其拼接在一起。池化后,每个色块由一个N维特征向量表示,整个图像映射到一个K*N特征矩阵中,其中K为色块的数量,矩阵的每一行表示对应色块的特征。

颜色区域匹配现在,使用F0和F1估计I0和I1颜色块之间的一致映射使用F0和F1计算亲和性指标A为:

其中

表示特征矩阵每一行除以全部特征向量之和进行归一化,然后挑选图像1和图像2之间的色块归一化特征进行匹配,特征相差小的可以看成匹配色块。

接着提出了一个距离惩罚函数,代表匹配到的两个色块不能距离太大,定义为两个色块的质心与图像对角线长度的距离之比。下面这个公式只能应用于位移大于图像对角线长度15%的情况,其他情况不考虑该损失

 

最后提出一个尺寸惩罚函数,表示匹配到的色块之间尺寸(像素数目)不能相差太大。

结合以上各项,得到匹配度矩阵C为: 

其中,λdist和λsize分别设置为0.2和0.05。对于每对匹配到的色块,C(i,j)表示可能性。因此,对于S0中的第i个色块,S1中最可能匹配的色块就是匹配度最大的色块,反之亦然。这种匹配的映射可以表示为如下所示:

1. 2.2  循环细流化网络

SGM模块有利于大位移的估计,但对动画视频中非线性和夸张运动的精确变形预测效果较差。RFR通过细化粗略的、分段的流达到更好的预测效果。

在这节中,我们通过深度循环流细化(RFR)网络将粗糙的光流和细化为更精细的视图和。引入RFR模块有两个主要动机。首先,由于在色块匹配步骤中采用了严格的互一致性约束,非鲁棒对被屏蔽掉,在某些位置留下空流值。RFR能够为这些位置生成有效的流。其次,SGM模块有利于大位移,但对动画视频中非线性和夸张运动的精确变形预测效果较差。在这里,RFR通过细化粗的、分段的流补充了前面的步骤。

粗流乘以exp{-g2}作为初始值,送入convolutional GRU进行下一步细化。一系列通过卷积GUR学习:

经过T迭代后的光流细化计算为:

1.2.3  帧整经和合成

使用和流产生中间帧,我们采取SoftSplat的飞溅和合成策略.简而言之,利用多尺度CNN从I0和I1中提取一组特征值,然后通过正向偏移到中心位置,将所有特征和输入帧进行散列.例如:I0被分割成公式如下:

是最后一次迭代的输出I0→1/2

最后,将所有扭曲的帧和特征输入到具有三个尺度级别的GridNet中,合成目标帧

 

2 动画视频插帧的改进方向

Depth-Aware Video Frame Interpolation提出了一种利用深度信息检测遮挡的视频帧插值方法。作者开发了一个深度感知流投影层,它可以合成一个即时流,对较近的对象进行采样,而不是对较远的对象进行采样。

通过从相邻像素中收集上下文信息来学习层次特征。然后,基于光流和局部插值核,通过扭曲输入帧、深度图和上下文特征来生成输出帧。提出了一种深度感知视频帧内插(DAIN)模型,该模型可以有效地利用光流、局部内插核、深度图和上下文特征生成高质量的视频帧。正向扭曲操作是一种线性插值,会存在空洞(正向映射没有像素点映射到某像素点)和多映射(正向映射多个像素点映射到某像素点)的融合问题。

DAIN结合深度信息来解决上述问题:对于多映射像素点则基于深度信息进行权重估计,深度较小的前景像素具有较高权重;对于空洞像素点,则找到空洞周围最近邻的有光流的四个像素点,然后基于深度进行加权融合。

虽然结合深度信息更好的进行权重估计,但本质上还是没有解决以上两个问题,并且深度估计本身也是一个很难的问题,深度估计的准确性对最终光流的估计有很大影响。

 

 

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

D了一天bug忘了编译

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值