geneface++:Generalized and stable real-time audio-driven 3d talking face generation

Kun Li

已于 2024-08-15 10:14:58 修改

阅读量1k

点赞数 28

分类专栏：虚拟数字人技术文章标签：人工智能计算机视觉

于 2024-04-25 09:52:49 首次发布

本文链接：https://blog.csdn.net/u012193416/article/details/138166100

版权

虚拟数字人技术专栏收录该内容

4 篇文章 2 订阅

订阅专栏

1.introduction

音频唇形同步，对于长音频序列建模并生成时间一致结果仍具有挑战性。例如，当歌声中出现拖拉或者颤音时，一个音素可能持续超过2s（约50个视频帧），这要求预测的唇形运动在长期内保持一致。对于仅使用几分钟的视频连续帧训练的nerf来说，渲染各种面部动作，比如一个超大的嘴巴是困难的。

Geneface++中，Pitch-aware audio-to-motion模块，引入音调轮廓作为音频到运动映射的辅助特征，引入一个时间平滑；2.提出了Landmark locally linear embedding来后处理预测的坐标；3.提出了Instant Motion-to-video模块。

2.related works

talking face generation可以分为两个连续步骤，1.音频到运动的过程，根据输入的音频预测面部运动，2.一个运动到视频的过程，根据输入面部运动呈现人类肖像图像。

2.1 Lip-synchronized audio-to-motion

唇形驱动，1.一对多映射问题，相同的输入音频可能有几种合理的对应面部运动，就是唇形同步问题；2.给定长音频的情况下生成时间一致且稳定的运动序列。

2.2 Human portrait rendering

动态人像合成技术分为三类：1.基于2D；2.基于3D可变形模型3DMM；3.基于NERF。

3.Preliminaries：Geneface

音频到动作：Geneface首先在大规模lip-reading数据集上学习了一个有条件VAE模型，以实现在不同音频给定情况下的泛化和精确的面部标记预测。AE是面部landmark进，landmark出，这里的条件是音频，通过音频控制图像生成，sd是通过文本控制图像生成。

为了克服lip-reading数据集和目标人物视频之间的差异，Geneface采用postnet，将预测的面部动作投影到目标人物域中，

运动到视频，NERF

4.Geneface++

4.1 Pitch-aware audio-to-motion transform

考虑到音频到运动映射中考虑音高信息的动机是音高已知与面部表情高度相关，例如高而稳定的音高轮廓可能与大而稳定的唇部运动相关。1.辅助声学特征，有助于提高预测面部运动的表现力和一致性；2.引入音高信息观察到Geneface中DA postnet的性能不稳定，Postnet仅提供预测的面部运动，并要求将其投影到目标域，对于postnet在其隐式空间中处理该域转移是困难的，训练不稳定，将高音信息作为一个轻量级且有用的提示，帮助postnet更好的处理输入的landmark。

训练，1.VAE的训练目标添加一个时间平滑项；2.更新postnet的鉴别器时采用了WGAN-GP中的梯度惩罚。

4.2 Landmark locally linear embedding

将音高信息引入音频到运动模块，改善了landmark的时间一致性和自然性。然而，仅改善预测landmark的质量并不足以实现良好的视频质量，这需要基于NERF的运动到视频模块准确渲染与指定面部运动相对应的人像。然而，这种基于NERF的渲染器通常是从一个非常小的数据集中学习的，因此只能在面部landmark的狭窄输入空间上运行。当遇到OOD的landmark时则会崩溃，Geneface利用adversarial domain adaptation训练一个postnet将所有的landmark映射到NERF狭窄输入空间中，然后，由于对抗训练的不稳定性，理论上不能保证每帧都能正确的投影到目标域，且偶尔会出现槽糕的情况，提出了Landmark lle，是一种基于流形投影的后处理方法，保证每个预测landmark成功映射到landmark条件渲染器输入空间。换句话说，借助于lamdmark lle，每个预测landmark都被拉近到用于训练渲染器的GT landmark附近。

4.3 Instant motion-to-video rendering

5.Experiments

5.1 数据准备和后处理

使用LRS3-TED的一个子集，提供了190小时的高质量的音频-动作对，为了学习nerf的任务特定渲染器，包括5个视频，平均长度为6000帧，帧率是25fps，在数据预处理中，从音频轨道中提取了hubert特征和音调轮廓，从视频帧中提取了头部姿势和3d关键点，为了训练nerf，目标人物的视频被裁剪为512x512，每帧获取用于分割头部和躯干部分并提取干净背景。

5.2 训练细节

1台rtx3090上训练geneface++，pitch-aware audio-to-motion模块中的VAE和postnet，收敛需要大概40k和10k个步骤，约12个小时，instant motion-to-video渲染器，分别对每个模型进行400k迭代，头部和躯干个200k，大约耗时10小时。

5.3 结果

6.部署

geneface++会存在一定情况的丢音现象，是这样的，hubert提取音频特征首先会除2，然后回经过VAE，VAE会降采样4倍，所以这里就有个8的整数倍问题，如果输入的音频最终不能被8整除，在最后用音频拼接回视频时就回存在实际音频比视频长的情况，视频时根据音频合成的，因此实际的视频与用来合成的音频是保持一致的，与丢帧的原音频比，是较短的。可以先对输入的音频先进行特征提取，然后按照整数倍进行切分，通常是4s。