SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis 论文水记

Terminator_X9

已于 2024-05-27 13:33:05 修改

阅读量1.3k

点赞数 34

分类专栏： 2D数字人生成文章标签： python AIGC 深度学习

于 2024-05-14 00:22:03 首次发布

本文链接：https://blog.csdn.net/q86096404/article/details/138825303

版权

2D数字人生成专栏收录该内容

1 篇文章

订阅专栏

Paper | Project Page | Code | Demo

Tri-Plane Hash Representation 用于维持主体身份
Face-Sync Controller 用于将嘴唇运动和语音对齐，并创新性地使用 3D 面部混合形状模型（3D facial blendshape model）来捕捉准确的面部表情
Head-Sync Stabilizer 优化头部姿态，实现更自然的头部动作
Portrait-Sync Generator 可恢复头发细节，并将生成的头部和躯干融合，获得无缝的视觉体验

0. Introduction

现有方法普遍面临的一个基本挑战是需要实现同步。

传统居于GAN的方法虽然擅长建模说话人的嘴唇运动，但通常会在不同帧之间产生不一致的身份，从而导致牙齿尺寸不同和嘴唇厚度波动等问题。
基于神经辐射场的新兴方法在保持身份一致性和保留面部细节方面表现出色，但存在嘴唇运动不匹配、面部表情控制困难和头部姿势不稳定问题，从而降低了视频的整体真实感。

本文的主要贡献如下：

提出了一种面部同步控制器（Face-Sync Controller），该控制器将视听编码器（Audio-Visual Encoder）与面部动画捕捉器（Facial Animation Capturer）结合使用，确保准确的口唇同步和动态面部表情渲染；
引入了头部同步稳定器（Head-Sync Stabilizer），可以跟踪头部旋转和面部运动关键点。该稳定器采用束调节方法，保证头部运动的平滑和同步；
设计了一个肖像同步生成器（Portrait-Sync Generator），通过修复 NeRF 建模中的伪影并细化高分辨率视频中的头发和背景等复杂细节来提高视觉保真度。

SyncTalk 概述。给定一个说话头部的裁剪参考视频和相应的语音，SyncTalk 可以通过两个同步模块 (a) 和 (b) 提取唇部特征 $f_l$ 、表情特征 $f_e$ 和头部姿势 $(R, T)$ 。然后，三平面哈希表示对头部进行建模，输出粗略的语音驱动视频。肖像同步生成器进一步恢复头发和背景等细节，最终生成高分辨率的头部说话视频

1. 面部同步控制器（Face-Sync Controller）

1.1 音视频编码器（Audio-Visual Encoder）

使用预训练的唇部同步判别器（Out of time: automated lip sync in the wild），它可以为视频的嘴唇同步效果提供confidence数值。判别器的输入为：

F —— 连续的面部窗口
A —— 对应的音频帧

当F和A完全重叠为正样本（y=1），否则为负样本（y=0）
判别器计算这些序列之间的余弦相似度： $\frac{{F \cdot A}}{{||F||_2 ||A||_2}} )$ 通过使用以下二元交叉熵损失函数（Binary Cross-Entropy Loss，简称BCE）来最小化同步样本距离并最大化非同步样本距离：
$L_{sync}= - \left( y \log(\text{sim}(F, A)) + (1 - y) \log(1 - \text{sim}(F, A)) \right)$ 在口唇同步鉴别器的监督下，接下来训练一个与唇形运动相关的高度同步的音频视觉特征提取器。首先用卷积网络获取音频特征Conv(A)和面部特征Conv(F)，这些特征将concat起来。在解码阶段，使用堆叠卷积层 Dec(Conv(A)⊕Conv(F)) 来恢复面部帧。 $L_1$ 重建损失如下：
$L_{recon} = \| F - Dec(Conv(A) \oplus Conv(F))\|_1.$ 通过使用嘴唇运动鉴别器对同步和非同步片段进行采样，并采用上式 $L_{sync}$ 损失。通过最小化两个损失，训练一个与音频相关的面部生成网络。
训练后，我们使用 Conv(A) 作为从音频中提取的唇部空间。最终，我们获得了与嘴唇运动相关的高度同步的视听编码器。

1.2 面部动画捕捉器（Facial Animation Capturer）

之前基于NeRF的方法只能改变眨眼，不能准确模拟面部表情。为了实现更加同步和真实的面部表情，本文提出表情同步控制模块，具体来说，使用52个语义面部混合形状系数B来对面部进行建模，如下图所示：

由于3D人脸模型能够保留人脸运动的结构信息，因此能够很好地反映人脸运动的内容，而不会造成人脸结构扭曲。训练时首先使用复杂的面部混合形状捕获模块捕获面部表情为 $E (B)$ ，并选择七个核心面部表情控制系数来控制眉毛、额头和眼睛区域。它们与表情高度相关，与嘴唇运动无关。

1.3 面部感知掩码注意力（Facial-Aware Masked-Attention）

为了减少训练过程中嘴唇特征和表情特征之间的相互干扰，本文引入了 Facial-Aware Disentangle Attention 模块。基于区域注意力向量 V ，我们分别将掩模 $M_{lip}$ 和 $M_{exp}$ 添加到嘴唇和表情的注意力区域。具体来说，新的注意力机制由以下公式给出：
$V_{lip} = V \odot M_{lip} ,$ $V_{exp} = V \odot M_{exp} .$ 该方式使得注意力机制仅关注各自部分，从而实现各部分解耦。如果不进行以上操作，嘴唇运动可能引起眨眼倾向并影响头发体素。通过引入掩码模块，注意力机制可以集中在表情或嘴唇，而不影响其他区域，从而减少耦合带来的伪影。最终得到解耦的嘴唇特征 $f_l = f_{lip} \odot V_{lip}$ 和表情特征 $f_e = f_{exp} \odot V_{exp}$ 。

2. 头部同步稳定器（Head-Sync Stabilizer）

2.1 头部动作追踪器（Head Motion Tracker）

头部姿势表示为p，指人的头部在3D空间中的旋转角度，由旋转矩阵 R 和平移向量 T 组成。不稳定的头部姿势会导致头部抖动。为了获取头部姿势的粗略估计，首先，在预定范围内进行 $i$ 次迭代确定最佳焦距。对于每个候选焦距 $f_i$ ，重新初始化旋转和平移参数。目标是最小化 3DMM 投影地标和视频帧中的实际地标的误差。最佳焦距 $f_{opt}$ 由下式给出：
$f_{opt} = \arg \min_{f_i} E_i(L_{2D}, L_{3D}(f_i, R_i, T_i)),$ 其中 $E_i$ 表示这些地标之间的均方误差MSE， $L_{3D}(f_i, R_i, T_i))$ 是给定焦距 $f_i$ 和相应旋转和平移参数 ${R_i}$ 和 ${T_i}$ 下3DMM的投影地标， $L_{2D}$ 是视频帧中实际地标（通过face_alignment提取）。随后利用最佳焦距 $f_{opt}$ 细化所有帧的旋转 R 和平移 T 参数，以更好地将模型投影地标和实际地标对齐。细化过程的数学公式表示为：
$(R_{opt}, T_{opt}) = \text{arg min}_{R,T} E(L_{2D}, L_{3D}(f_{opt}, R, T)),$ 其中 E 表示最佳焦距 $f_{opt}$ 的3D投影地标 $L_{3D}$ 和实际2D地标 $L_{2D}$ 之间的MSE度量。优化的旋转参数 $R_{opt}$ 和平移参数 $T_{opt}$ 是通过最小化所有帧上的MSE误差得到的。

2.2 头部点追踪器（Head Points Tracker）

由于基于NeRF的方法及其对输入头部旋转 R 和平移 T 的要求，之前的方法利用3DMM技术来提取头部姿势，但会生成不准确的结果。为了提高 R 和 T 的精度，本文使用 CoTracker 的光流估计模型来跟踪面部关键点 K。
具体而言，先使用预训练的光流估计模型，获得面部运动光流后，使用拉普拉斯滤波器来选择最显着流量变化所在的关键点，并跟踪这些关键点在流量序列中的运动轨迹。通过该模块，我们的方法确保所有帧上的面部关键点对齐更加精确和一致，从而提高头部姿势参数的准确性。

2.3 束调整（Bundle Adjustment）

给定关键点和粗略的头部姿势，我们引入一个两阶段的优化框架来提高关键点和头部姿态估计的准确性。第一阶段先随机初始化关键点的3D坐标，并优化他们的位置以对齐图像平面上跟踪的关键点。该过程涉及最小化损失函数 $L_{init}$ ，该函数捕获投影关键点P和跟踪关键点K之间的差异，如下式所示：
$L_{\text{init}} = \sum_j \|P_j - K_j\|_2.$ 随后，在第二阶段，开始进行更全面的优化，以细化3D关键点和相关的头部联合姿势参数。通过Adam优化器，调整空间坐标、旋转角度 R 和平移 T 以最小化对齐误差 $L_{sec}$ ：
$L_{\text{sec}} = \sum_j \left\| P_j(R, T) - K_j \right\|_2$ 经过优化后，观察到所得的头部姿势和平移参数平滑且稳定。

3. 动态肖像渲染器（Dynamic Portrait Renderer）

3.1 三平面哈希表示（Tri-Plane Hash Representation）

NeRF通过输入3D空间位置 $\mathrm{x}=(x, y, z)$ 和观看方向 $\mathrm{d}=(\theta, \phi)$ ，经过MLP网络输出辐射亮度（颜色） $\mathrm{c}=(r, g, b)$ 和密度 $\sigma$ 。预测的像素颜色，用 $\hat{C}(\mathrm{r})$ 表示，与源自相机核心位置 o 的射线 $\mathrm{r}(t)=\mathrm{o}+t\mathrm{~d}$ 一起通过以下公式导出：
$\hat{C}(\mathrm{r})=\int_{t_n}^{t_f} \sigma(\mathrm{r}(t)) \cdot \mathrm{c}(\mathrm{r}(t) , \mathrm{d}) \cdot T(t) d t$ 其中 $t_n$ 和 $t_f$ 是近边界和远边界， $T (t)$ 是累积透射率。为了解决哈希冲突和优化音频特征处理的挑战，结合了三个相互正交的2D哈希网格（参考 ER-NeRF）。由 $\mathrm{x}=(x, y, z) \in \mathbb{R}^{\mathrm{XYZ}}$ 给出坐标，通过三个单独的2D多分辨率哈希编码器对其投影值进行编码转换，公式1：
$\mathcal{H}^{\mathrm{AB}}:(a, b) \rightarrow \mathrm{f}_{a b}^{\mathrm{AB}}$ 其中，输出为 $\mathrm{f}_{a b}^{\mathrm{AB}} \in \mathbb{R}^{L D}$ ，L是分辨率级数，D是每个哈希表条目的特征维度，输出的特征表示与投影坐标 (a,b) 相对应的平面几何特征， $\mathcal{H}^{\mathrm{AB}}$ 表示平面 $\mathbb{R}^{\mathrm{AB}}$ 的多分辨率哈希编码器。通过融合结果，得到最终的几何特征 $\mathrm{f} g \in \mathbb{R}^{3 \times L D}$ 如下：
$\mathrm{f}_{\mathrm{x}}=\mathcal{H}^{\mathrm{XY}}(x, y) \oplus \mathcal{H}^{\mathrm{YZ}}(y, z) \oplus \mathcal{H}^{\mathrm{XZ}}(x, z)$ 其中特征的连接用符号 $\oplus$ 表示，得到 $\times L D$ 通道的向量。应用 $\mathrm{f}_{\mathrm{x}}$ ，视角方向 $\mathrm{d}$ ，嘴唇特征 $f_l$ 和表情特征 $f_e$ ，三平面哈希编码的隐式函数定义为：
$\mathcal{F}^{\mathcal{H}}:\left(\mathrm{x}, \mathrm{d}, f_l, f_e ; \mathcal{H}^3\right) \rightarrow(\mathrm{c}, \sigma),$ 其中 $\mathcal{H}^3$ 合并了平面哈希编码器的三元组，如公式1所示。
训练阶段采用两阶段从粗到细的策略，首先使用MSE损失来评估预测的 $\hat{C}(\mathrm{r})$ 和实际图像颜色 $C(\mathrm{r})$ 。由于MSE在细节捕捉方面的局限性，在细化阶段通过结合 LPIPS 损失来增强细节，与 ER-NeRF 类似。本文在图像中随机选取图像块 $\mathcal{P}$ ，将 LPIPS（由 $\lambda$ 加权）与 MSE 相结合以改进细节表示，如下所示：
$\mathcal{L}_{\text {total }}=\sum_{\mathrm{r}}\|C(\mathrm{r})-\hat{C}(\mathrm{r})\|_2+\lambda \times \mathcal{L}_{\mathrm{LPIPS}}(\hat{\mathcal{P}}, \mathcal{P})$

3.2 Portrait-Sync Generator（肖像同步生成器）

训练过程中，为了解决 NeRF 在捕捉发丝和动态背景等精细细节方面的局限性，本文引入了具有两个部分的肖像同步生成器。首先，NeRF 渲染面部区域 $F_r)$ ，通过高斯模糊创建 $G(F_r)$ ，然后使用之前获取的同步头部姿势与原图 $F_o)$ 合并来增强头发细节保真度。第二，当头部和躯干组合时，如果原视频中的人物在说话而生成的人脸保持沉默，则可能会出现暗间隙区域，如下图所示。本文使用平均颈部颜色 $(C n)$ 填充这些区域。本方法通过肖像同步生成器产生更真实的细节并提高视觉质量。

代码如下：

pred = blend_with_mask_cuda(preds[0], data["bg_gt_images"].squeeze(0),data["bg_face_mask"].squeeze(0))

def blend_with_mask_cuda(src, dst, mask):

    src = src.permute(2, 0, 1)

    dst = dst.permute(2, 0, 1)

    mask = mask.unsqueeze(0)

    # Blending
    # 源图像和遮罩的元素进行相乘，目标图像和遮罩的补（1-mask）进行相乘，然后将两个结果相加，得到混合图像。

    blended = src * mask + dst * (1 - mask)

    # Convert back to numpy and return

    return blended.permute(1, 2, 0).detach().cpu().numpy()