计算机视觉动画视频插帧难点、流程及改进-CSDN博客

本文链接：https://blog.csdn.net/qq_52505851/article/details/125218987

0 引言

在动画行业中，动画视频是由专业动画师使用复杂的手绘图和精确的程序进行制作。手动绘制视频的每一帧都需要花费大量的时间，过高成本的同时无法产生令人满意的动画数据效果。本文结合Deep Animation Video Interpolation in the Wild论文，通过论文分析，总结其思想和困难。

1 动画视频插帧

1. 1 动画视频插帧存在的难点

1）动画由线条和光滑的色彩块组成。光滑的区域缺少纹理，就难以估计动画视频的准确动作。

2）漫画通过夸张来表现故事。有些动作是非线性的并且非常大。本文首次正式定义并研究了动画视频插帧问题。

1. 2.1 总体框架

构建了以下两个模块解决了上述插帧存在的难点。

(1)SGM

提出的SGM模块使用按轮廓分割的颜色块之间的全局语义匹配来计算粗片光流。由于属于一个段的相似像素被看作一个整体，SGM模型能够避免在光滑区域不匹配导致的局部最小值，解决了“缺乏纹理”的问题。为了解决动画中”非线性和极大动作“的挑战，SGM估计的分段流通过名为Recurrent Flow Refinement的类似Transformer的网络进一步增强。

(2)RFR

解决了“非线性和超大运动”挑战，通过使用类似Transformer的网络进行重复迭代构建细化运动用来生成中间的帧。

1. 2.1 SGM具体细节

色块分割：采用拉普拉斯滤波器来提取动画帧的轮廓。然后轮廓填充以生成颜色块。得到的分割图具有H×W个元素 , 每个色块都标有一个编号。将输入I0和I1的分割分别记为S0和S1。S0(i)表示I0的第i个彩色块中的像素点。

特征提取：我们将输入I0和I1输入到预先训练的模型中。然后，我们通过提出的超像素池将属于某一段的特征集合起来。通过下采样分割图汇集较小尺度的特征，并将其拼接在一起。池化后，每个色块由一个N维特征向量表示，整个图像映射到一个K*N特征矩阵中，其中K为色块的数量，矩阵的每一行表示对应色块的特征。

颜色区域匹配：现在，使用F0和F1估计I0和I1颜色块之间的一致映射，使用F0和F1计算亲和性指标A为：

其中

表示特征矩阵每一行除以全部特征向量之和进行归一化，然后挑选图像1和图像2之间的色块归一化特征进行匹配，特征相差小的可以看成匹配色块。

接着提出了一个距离惩罚函数，代表匹配到的两个色块不能距离太大，定义为两个色块的质心与图像对角线长度的距离之比。下面这个公式只能应用于位移大于图像对角线长度15%的情况，其他情况不考虑该损失

最后提出一个尺寸惩罚函数，表示匹配到的色块之间尺寸（像素数目）不能相差太大。

结合以上各项，得到匹配度矩阵C为：

其中，λdist和λsize分别设置为0.2和0.05。对于每对匹配到的色块，C(i,j)表示可能性。因此，对于S0中的第i个色块，S1中最可能匹配的色块就是匹配度最大的色块，反之亦然。这种匹配的映射可以表示为如下所示：

1. 2.2 循环细流化网络

SGM模块有利于大位移的估计，但对动画视频中非线性和夸张运动的精确变形预测效果较差。RFR通过细化粗略的、分段的流达到更好的预测效果。

在这节中，我们通过深度循环流细化（RFR）网络将粗糙的光流和细化为更精细的视图和。引入RFR模块有两个主要动机。首先，由于在色块匹配步骤中采用了严格的互一致性约束，非鲁棒对被屏蔽掉，在某些位置留下空流值。RFR能够为这些位置生成有效的流。其次，SGM模块有利于大位移，但对动画视频中非线性和夸张运动的精确变形预测效果较差。在这里，RFR通过细化粗的、分段的流补充了前面的步骤。

粗流乘以exp{-g2}作为初始值，送入convolutional GRU进行下一步细化。一系列通过卷积GUR学习:

经过T迭代后的光流细化计算为：

1.2.3 帧整经和合成

使用和流产生中间帧,我们采取SoftSplat的飞溅和合成策略.简而言之,利用多尺度CNN从I0和I1中提取一组特征值,然后通过正向偏移到中心位置,将所有特征和输入帧进行散列.例如:I0被分割成公式如下:

是最后一次迭代的输出I0→1/2

最后,将所有扭曲的帧和特征输入到具有三个尺度级别的GridNet中,合成目标帧

2 动画视频插帧的改进方向

Depth-Aware Video Frame Interpolation提出了一种利用深度信息检测遮挡的视频帧插值方法。作者开发了一个深度感知流投影层，它可以合成一个即时流，对较近的对象进行采样，而不是对较远的对象进行采样。

通过从相邻像素中收集上下文信息来学习层次特征。然后，基于光流和局部插值核，通过扭曲输入帧、深度图和上下文特征来生成输出帧。提出了一种深度感知视频帧内插（DAIN）模型，该模型可以有效地利用光流、局部内插核、深度图和上下文特征生成高质量的视频帧。正向扭曲操作是一种线性插值，会存在空洞（正向映射没有像素点映射到某像素点）和多映射（正向映射多个像素点映射到某像素点）的融合问题。

DAIN结合深度信息来解决上述问题：对于多映射像素点则基于深度信息进行权重估计，深度较小的前景像素具有较高权重；对于空洞像素点，则找到空洞周围最近邻的有光流的四个像素点，然后基于深度进行加权融合。

虽然结合深度信息更好的进行权重估计，但本质上还是没有解决以上两个问题，并且深度估计本身也是一个很难的问题，深度估计的准确性对最终光流的估计有很大影响。