SadTalker（CVPR2023）-音频驱动视频生成

‘Atlas’

已于 2023-04-21 15:14:38 修改

阅读量3.1k

点赞数 2

分类专栏：论文详解跨模态视频生成文章标签：音视频 SadTalker CVPR2023 动画生成

于 2023-03-19 21:19:47 首次发布

本文链接：https://blog.csdn.net/qq_41994006/article/details/129656120

版权

论文详解同时被 3 个专栏收录

72 篇文章

订阅专栏

跨模态

25 篇文章

订阅专栏

视频生成

7 篇文章

订阅专栏

SadTalker是一种新方法，通过学习3D运动系数来生成音频驱动的3D面部动画，解决了头部运动不自然和表情混乱的问题。它使用ExpNet和PoseVAE分别处理表情和头部姿势，结合3D面部渲染器创建连贯的视频。实验表明，SadTalker在视频质量和头部姿势多样性方面优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》
github： https://github.com/Winfredy/SadTalker
演示效果： https://www.bilibili.com/video/BV1fX4y1675W

摘要

利用一张面部图片及一段音频让其变为一段讲话的视频仍然存在许多挑战：头部运动不自然、表情混乱、人物外表发生变化。作者认为这主要是由于耦合2D运动场导致，但是使用3D信息有的方法也会出现表达混乱、视频不连贯问题。
因此作者提出SadTalker，生成3DMM的三维（头部姿势、表情）系数，利用三维面部渲染器进行视频生成。为了学习逼真的运动场系数，作者建模音频与不同类别运动场系数之间联系。作者提出ExpNet，蒸馏运动场系数与三维渲染人脸学习准确面部表情。对于头部姿势，作者设计PoseVAE生成不同风格头部动画。最终生成的三维运动场系数映射至面部渲染器的三维关键点空间进行生成视频。

算法

如图2，作者使用3D运动系数作为中间结果用于头部讲话视频生成。首先从原始图片提取相关系数，利用ExpNet及PoseVAE分别生成3DMM运动系数，最后利用三维面部渲染器生成视频。
在这里插入图片描述

3.1. Preliminary of 3D Face Model 3D

在3DMM中，三维面部shape S可解耦为式1，
在这里插入图片描述
其中 $\overline S$ 表示3D人脸平均shape， $U_{id}$ 表示形状正交基， $U_{exp}$ 表示表达正交基，α、β为相关系数。为保留姿态变化，系数r、t分别表示头部旋转及变换；为了使得参数与人体解耦，作者利用音频仅建模参数 ${β, r, t}$ ，其中头部姿势参数 $ρ = [r, t]$ ，这些参数用于调制面部渲染器生成最终视频。

3.2. Motion Coefficients Generation through Audio

**头部姿势是全局姿态而表情是局部相关，因此一起学习将导致巨大不确定，音频与头部姿态弱相关而与嘴唇变换强相关，**因此作者使用PoseVAE生成头部姿态相关系数，ExpNet生成表情相关系数。

ExpNet

通过音频生成准确表情相关参数有两个难点：
1、不同人体音频到表情有不同表现；
2、表情中有些与音频无关动作，这影响预测准确性；
ExpNet用于降低这些不确定性，对于个人特性问题，通过第一帧表情系数 $β_0$ 建立表情与特定人体关联；为了减少其他面部表情权重，作者使用Wav2Lip生成的嘴唇运动系数作为target，其他微表情通过额外关键点损失约束。
在这里插入图片描述
如图3，对于一段音频，生成t帧表情系数，每一帧音频为0.2s梅尔频谱。训练时基于ResNet的音频编码器 $Φ_A$ 将其映射到隐空间，线性层作为映射网络 $Φ_M$ 解码表情系数，其引入参考表情 $β_0$ 用于减少个人特征不确定性，训练时仅使用唇部作为真值，因此作者引入眨眼控制信号 $Z_{blink}$ 及对应眼部关键点损失用于控制生成眨眼，如式2，
在这里插入图片描述
对于损失函数，首先使用 $L_{distill}$ 评估唇部表情系数 $R_e(Wav2Lip(I_0, a_{\{1,...,t\}}))$ 与生成的 $β_{\{1,...,t\}}$ 之间差异，Wav2Lip使用第一帧生成唇部同步视频，这降低了姿态变量及唇部以外面部表情影响，除此之外，作者使用可微的3D面部渲染器 $R_d$ 计算额外的感知损失，如图3，计算关键点损失 $L_{lks}$ 用于衡量眨眼范围及整个表情准确率，实时唇部读取损失 $L_{read}$ 使用预训练的唇部读取网络 $Φ_{reader}$ ，用于保证唇部质量。

PoseVAE

如图4，一个基于VAE的模型PoseVAE用于学习逼真的有个人风格的头部运动 $ρ ∈ R^6$ ，PoseVAE基于n帧训练，编码器与解码器输入包括t帧头部姿势，embed为高斯分布，解码器网络根据采样到的分布学习生成t帧姿态。作者没有直接生成姿势，而是学习与第一帧姿势 $ρ_0$ 之间残差，这使得本方法在测试阶段基于首帧可以生成更长、更稳定、更连续头部运动。依据CVAE，增加对应音频特征 $a_{\{1,...,t\} }$ 及风格 $Z_{style}$ 作为条件，使得模型关注节奏及个人风格。 $L_{kl}$ 用于衡量生成运动的分布， $L_{mse}$ 及 $L_{GAN}$ 用于确保生成质量。
在这里插入图片描述

3.3. 3D-aware Face Render

face-vid2vid需要真实视频作为驱动信号，本文提出的面部渲染器利用3DMM参数进行驱动，如图5，作者利用映射网络学习3DMM运动系数与无监督3D关键点之间关系。
在这里插入图片描述
训练过程分两步：第一步自监督训练face-vid2vid；第二步frozen外观编码器、关键点估计、图像生成模块参数进行finetuning，而后通过重构的方式训练映射网络，在关键点空间使用 $L_1 loss$ 约束。

实验

SOTA实验

如表1，本文提出方法与其他方法相比具有更高视频质量以及头部姿势多样性。
在这里插入图片描述
图6作者展示可视化结果，作者提出方法与原始视频视觉上非常相似，同时正如所期望的具有不用的头部姿势。Wav2Lip产生模糊半脸，PC-AVS和Audio2Head没能保留个体特性，MakeItTalk和Audio2Head由于使用二维warp，因此生成扭曲的面部视频。
在这里插入图片描述
作者生成20段不同年龄、姿势、表情视频，20个用户选择质量最佳视频，结果如表2，38%用户认为本文所提方法在唇部同步方面效果最佳；