Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis 译文

Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis
模仿任意说话风格进行真实音频驱动的人脸合成

链接

arxiv：https://arxiv.org/abs/2111.00203
视频：https://hcsi.cs.tsinghua.edu.cn/demo/MM21-HAOZHEWU.mp4

摘要

人们说话的风格多样化。对于一篇演讲，不同的谈话风格在面部和头部姿势的动作上表现出显著的差异。例如，“兴奋”的风格通常是张大嘴巴说话，而“严肃”的风格则更加标准化，很少表现出夸张的动作。由于不同风格之间的巨大差异，有必要将谈话风格纳入音频驱动的谈话面部合成框架。

在本文中，我们建议通过模仿特定参考视频的任意谈话风格，将风格注入谈话人脸合成框架。具体来说，我们使用收集的Ted HD数据集系统地调查谈话风格，并构建风格代码作为3D变形模型（3DMM）参数的几个统计数据。然后，我们设计了一个潜在风格融合（LSF）模型，通过模仿风格代码中的说话风格来合成风格化的人脸。我们强调了我们框架的以下新颖特征：（1）它不需要对风格进行任何注释，谈话风格是在无监督的情况下从野外的谈话视频中学习的。（2）它可以模仿任意视频中的任意样式，还可以插入样式代码以生成新样式。大量实验表明，与基线方法相比，该框架能够合成更自然、更具表现力的谈话风格。

关键词：照片级真实对话脸，对话风格，风格模仿

1. 介绍

在这里插入图片描述

图1：不同的说话风格在发音“significal”时，面部和头部姿势的动作有显著差异。

人脸合成技术是一种备受期待的技术，可用于电影制作、电话会议、虚拟/混合现实和人机交互等多种应用。有声面部合成的关键要素之一是面部和头部姿势动作的风格化。与短期面部动作所反映的谈话情绪不同，谈话风格是影响长期面部和头部姿势动作的关键因素。人们通常以“兴奋”、“严肃”、“交流”、“讲故事”等多种说话风格说话。在一篇演讲中，不同的说话风格在面部和头部姿势动作上表现出显著差异。例如，如图1所示，具有“兴奋”风格的人通常会大声说话，因此张大嘴巴的面部动作经常发生。同时，“严肃”的谈话风格通常出现在正式场合，因此夸张的动作很少出现。考虑到不同风格之间的巨大差异，为了针对一篇演讲合成多样化和逼真的人脸，有必要将说话风格纳入音频驱动的人脸合成框架。

之前的研究[10，36]已经证明了合成风格化的人脸的合理性。Yi等人[36]提出了记忆增强型GAN模型，用大量训练数据合成风格化的说话脸。Cudeiro等人[10]提出了语音操作角色动画（Voice Operated Character Animation，VOCA）模型来学习基于身份的谈话风格。VOCA模型通过将一个热点身份向量注入音频运动预测网络来捕获每个身份的说话风格。总的来说，这些方法有以下两个限制综合谈话风格表达的缺点：（1）这些方法假设每个身份只有一种谈话风格。然而，在真实场景中，谈话风格只在一个视频片段中相对稳定，一个人可以在不同的视频片段中使用明显不同的风格谈话。（2）这些方法需要大量的劳动，才能为每个身份收集足够的同步视听数据，这在野外场景中是不可用的。

为了解决上述问题，我们建议通过模仿任意视频片段的风格来合成风格化的人脸。有了这样的动机，就需要稳定多样的谈话风格的谈话视频。因此，我们收集了Ted HD数据集，其中有834个视频片段，具有60个身份。每个视频剪辑的平均长度为23.5秒。Ted HD数据集的通话风格多样化，每个视频剪辑内的通话风格稳定。

基于构建的数据集，我们设计了一个两阶段的人脸合成框架，如图2所示。第一阶段模拟来自任意视频的说话风格，并根据驱动语音合成3D人脸。然后，在第二阶段，我们从扬声器的静态肖像真实地渲染3D人脸模型照片。总的来说，我们框架的关键思想是从野外的视频片段中构造风格代码，然后通过模仿构建的风格代码中的说话风格来合成说话面孔。具体而言，对于风格代码的构建，我们对Ted HD数据集进行了详尽的观察，一方面验证了即使一个身份也有多种说话风格，另一方面发现说话风格与每个视频中面部和头部姿势运动的差异密切相关。根据我们的观察，我们将样式代码定义为3D变形模型（3DMM）[2]参数的几个可解释统计信息。在获得每个谈话视频的风格码后，我们设计了一个潜在风格融合（LSF）模型，通过模仿风格码中的谈话风格来合成风格化的3D谈话人脸。具体来说，LSF模型首先从音频流中删除[27]信息，以防止音频控制合成过程。此外，LSF模型将风格码与潜在音频表示逐帧融合，合成具有相应说话风格的3D人脸。LSF模型的总体实现简单但有效。我们的模型不仅避免了对谈话风格的注释，避免了为每个身份收集大量的训练数据，而且还可以生成新的谈话风格。

利用我们提出的框架，可以合成具有不同风格的谈话面孔。我们对Ted HD数据集进行了评估实验。与基线方法相比，我们的框架综合了更具表现力和多样化的谈话风格。我们进行了广泛的用户研究，以调查面部运动的自然度和视听同步。根据20名参与者的平均意见得分（MOS），我们的框架在面部运动自然度方面平均优于基线方法0.67，在视听同步方面平均优于0.11。

总之，我们的贡献概括为三个方面：

我们建议通过模仿任意视频的说话风格来合成风格化的说话面孔。风格模仿的结合使谈话风格更加多样化。
我们将每个谈话视频的风格代码形式化，并设计潜在风格融合（LSF）模型，以从风格代码和驱动音频合成风格化的3D谈话面孔。我们的框架不需要对风格化的人脸合成的说话风格进行任何注释。
我们收集了Ted HD数据集，其中包含834个具有稳定和多样化谈话风格的野生谈话视频片段。基于Ted HD数据集，我们进行了广泛的风格观察，并合成了富有表现力的谈话风格。代码和数据集是公开的。

在这里插入图片描述

2：我们的方法的总体框架包括两个阶段：风格化3D对话人脸合成阶段和照片级真实感渲染阶段。第一阶段通过模仿风格代码中的说话风格来合成风格化的3D说话脸。第二阶段使用延迟神经渲染和神经纹理生成模型合成照片级真实感视频。在我们的框架中，风格化的3D人脸合成阶段和照片级真实感渲染阶段分别进行训练。T 表示DeepSpeech功能的时间维度。对于风格代码的计算，即使来自同一身份的风格参考视频也会产生不同的风格代码。

2. 相关工作

人脸合成在以往的文献中受到了很大的关注。这一领域的相关工作可分为两类：单峰谈话面部合成[5，18，24，29，35，39，40]和多峰谈话面部综合[10，13，19，32，36，38]。对于一段受驱动的语音，单模谈话面部合成产生独特的运动，而多模态谈话面部合成则产生多样化的面部和头部姿势运动。

以往的研究大多集中在单峰人脸合成。Karras等人[21]提出合成具有驱动音频和情感状态的3D人脸。Suwajanakorn等人[28]通过奥巴马每周演讲视频的几个小时合成了高质量的奥巴马谈话视频。由于Suwajanakorn的方法要求每个身份需要数小时的数据，因此提出了几种方法[4–6、24、29、37、39、41]，以同时缩短所需的训练数据持续时间，并保证合成视频的真实感。Chen等人[6]提出的ATVG框架和Zhou等人[39]提出的DA-VS框架合成了只有一个图像的人脸。尽管这些单模对话人脸合成方法可以合成照片级的视频，但缺乏风格导致合成结果的僵化。

为了合成各种面部和头部姿势运动，最近的一些文献研究了多模态说话面部合成。Wang等人[32]和Eskimez等人[13]通过合并情感条件向量实现了多模态合成，从而能够生成多样化的面部表情。然而，由于忽视了谈话风格，这些方法的综合结果仍缺乏个性。为了解决这个问题，一些方法[10，36]建议将谈话风格纳入综合框架。Yi等人[36]提出了记忆增强型GAN模型，用大量训练数据合成风格化的说话脸。然而，只有头部姿势综合了多种风格，而面部动作仍然缺乏个性。此外，Cudeiro等人[10]提出了语音操作角色动画（Voice Operated Character Animation，VOCA）模型，以学习基于身份的谈话风格。VOCA模型将一个热点身份向量注入音频运动预测网络，从而实现面部和头部姿势运动的区分风格。然而，VOCA模型一方面需要每个身份的大量数据，另一方面强制一个身份只有一种说话风格，限制了其合成风格多样的能力。为了解决这个问题，在这项工作中，我们建议模仿任意的野生谈话视频中的谈话风格。

3. 问题表述

在本文中，我们提出了一个两阶段的人脸合成框架，该框架通过以下三个输入合成风格化的谈话视频：一个静态的说话人肖像、驱动音频和风格参考视频。我们将框架的第一个阶段形式化为3D人脸合成阶段，第二个阶段为照片级真实感渲染阶段。在两个阶段之间，我们将3DMM人脸模型[2]作为一个重要的桥梁。因此，在正式定义这两个阶段之前，我们首先简要介绍一下我们使用的人脸模型。

我们利用3DMM人脸模型来表示每个3D人脸。使用3DMM，面部形状 S 表示为面部表情和面部身份的仿射模型：

$\mathrm{S}=\mathrm{S}(\alpha, \beta)=\overline{\mathrm{S}}+\mathbf{B}_{i d} \alpha+\mathbf{B}_{\exp } \beta,$

这里 $\overline{\mathrm{S}} \in \mathrm{R}^{N \times 3}$ 是平局人脸形状; $\mathrm{N}$ 是人脸模型的顶点个数; $\mathbf{B}_{i d}$ 及 $\mathbf{B}_{\exp }$ 是身份及表情PCA基; $\alpha$ 和 $\beta$ 是身份及表情系数.。继邓等人[12]之后，我们采用了2009年巴塞尔面部模型[23] 用于 $\overline{\mathrm{S}}, \mathbf{B}_{i d}$ ，仿照Guo et al. [14] 等人使用 Facewarehouse [3]的构建表情基 $\mathbf{B}_{\exp }$ ，并应用至 $\alpha \in \mathbb{R}^{80}, \beta \in \mathbb{R}^{64}$ 。然后，根据头部姿势和平移将3D面部形状投影到2D平面上 $\in \mathbb{R}^7$ ，其中4个元素表示姿势四元数，3个元素表示平移。总体而言，参数 $(\alpha, \beta, p)$ 控制每个面的外观。在我们的框架中，面部动作是参数 $\beta$ 的时间序列, 我们称之为 $\beta(t)$ , 而头部姿势运动是参数 $p$ , 的时间序列, 我们称之为 $p (t)$ 。具有 $\beta(t)$ 和 $p (t)$ , 我们将框架的两个阶段形式化如下。
3D人脸合成阶段。 在此阶段，给定驱动音频 $\mathrm{X}_a$ , 风格参考视频的面部和头部姿势运动 $\beta_{\text {sty }}(t), p_{\text {sty }}(t)$ ，我们的目标是生成相应的面部和头部姿势运动 $\beta_{\text {pred }}(t), p_{\text {pred }}(t)$ 。

真实照片级渲染阶段。在这个阶段，考虑到预测的运动 $\beta_{\text {pred }}(t), p_{\text {pred }}(t)$ 和输入肖像 $\mathrm{X}_p$ ，我们的目标是生成照片级的视频Y。

4. 谈话风格观察

在本节中，我们系统地研究了不同的谈话风格如何反映在面部和头部姿势的动作中 $\beta(t)$ 和 $p (t)$ 。然后，我们根据观察结果正式定义每个视频的可解释样式代码。

为了观察每个视频的谈话风格，我们应该首先收集一个合适的数据集进行观察。风格观察视频需要具备以下特点：
（1）高分辨率；
（2）包含自然而富有表现力的面部和头部姿势动作；
（3）每个视频片段不能太短，否则很难观察到谈话风格；
（4）谈话风格应在片段内保持稳定，并在不同片段间多样化；
（5）每个剪辑内的相机姿势和位置应该是静态的，否则头部姿势参数会受到相机运动的影响。

考虑到上面提出的这些问题，当前公开可用的野生数据集，如VoxCeleb2[7]和LRS3[1]噪声太大，因此不符合要求。同时，一些实验室数据集，如MEAD[33]和GRID[9]，没有自然的面部表情和头部姿势，这也不符合要求。

为了解决这个问题，我们手动收集了一个适合风格观察和进一步风格合成的野生数据集Ted HD。Ted HD数据集从Ted网站上选择了几个语音视频。数据集中的每个视频都有一个人发表演讲，演讲聚焦于每个人的面部，并且具有高分辨率。我们根据场景变化将每个视频切成几个片段。Ted HD数据集总共包含834个视频片段，其中包含60个身份。每个剪辑的平均长度为23.5秒，数据集的总持续时间为6小时。这些视频的谈话风格在不同的剪辑中呈现多样化。即使是同一身份，也可能有不同的谈话风格。

获得数据集后，对于每个视频，我们重建面部和头部姿势运动 $\beta_{\text {pred }}(t), p_{\text {pred }}$ 。我们对谈话风格和 $\beta_{\text {pred }}(t), p_{\text {pred }}$ , 旨在回答以下问题：

一个身份是否有多种谈话风格
谈话风格如何反映在时间序列中 $\beta_{\text {pred }}(t), p_{\text {pred }}$

对于第一个问题，我们通过用户研究和 A/B 测试验证每个身份的谈话风格多样性。具体来说：我们首先随机构建 100 个三元组，每个三元组包含来自同一身份的两个说话视频𝑣1、𝑣2 和一个来自另一个身份的说话视频𝑣3。接下来，我们将𝑣1、𝑣2、𝑣3、重新定位𝛽（𝑡）、𝑝（𝑡）的𝛽（𝑡）、𝑝（𝑡）重建为相同的身份，并将重新定位的人脸渲染到视频中。重新定位的视频表示为𝑣′ 1, 𝑣′ 2, 𝑣′ 3。之后，我们向用户显示 𝑣′ 1、𝑣′ 2、𝑣′ 3 及其转录本，并询问以下问题：哪一对 ( 𝑣′ 1, 𝑣′ 2) 和 (𝑣′ 1, 𝑣′ 3) 具有更相似的说话风格。统计表明，在 100 个三元组中，(𝑣′ 1, 𝑣′ 3) 在 30 个三元组中更相似，而 (𝑣′ 1, 𝑣′ 2) 在 70 个三元组中更相似。据统计，每个身份内有 30% 的视频有不同的谈话风格，我们得出结论，一个身份有多种谈话风格。

在这里插入图片描述

图 3：说话风格与 3DMM 参数系列之间的相关性。我们调查了 8 种不同的统计数据，发现𝜎 (𝛽 (𝑡))、𝜎 ( 𝜕𝛽 (𝑡 ) /𝜕𝑡 )、𝜎 ( 𝜕𝑝 (𝑡 ) / 𝜕𝑡 ) 主要与说话风格相关

由于每个身份的谈话风格不一致，因此有必要制定风格代码。因此，在第二季度，我们进行了实验，以了解谈话风格如何反映在时间序列 𝛽 (𝑡)、𝑝 (𝑡) 中。具体来说，我们首先随机选择 300 个谈话视频，并将这些视频的谈话风格标注为三类：乏味、严肃和兴奋。之后，对于每个视频的运动序列 𝛽 (𝑡)、𝑝 (𝑡)，我们计算其关于时间 𝑡 的导数序列：( 𝜕𝛽 (𝑡 ) 𝜕𝑡 , 𝜕𝑝 (𝑡 ) 𝜕𝑡 )。接下来，我们计算 (𝛽 (𝑡)、𝑝 (𝑡)、𝜕𝛽 (𝑡) 𝜕𝑡、𝜕𝑝 (𝑡) 𝜕𝑡) 的平均值𝜇 (·) 和标准差𝜎 (·)，产生 8 个特征向量（4 个表示平均值，4 个表示标准差）。为了观察这些特征向量和说话风格之间的关系，我们利用 t-SNE 算法 [31] 来可视化每个特征向量和来自不同风格类别的不同颜色的绘图点，如图 3 所示。图 3 演示了说话风格与𝜎（𝛽（𝑡））、𝜎（𝜕𝛽（𝑡）𝜕𝑡）、𝜎（𝜕𝑝（𝑡）𝜕𝑡）密切相关，尤其是𝜎（𝜕𝑝（𝑡）𝜕）𝑡同时说话方式与𝜇(·)的相关性较小，表示说话方式主要体现在动作的波动上，而不是动作的空闲状态。

基于这样的观察，我们将风格代码定义为面部和头部姿势运动的标准偏差。形式上，给定具有重构参数序列 𝛽 (𝑡)、𝑝 (𝑡) 的任意视频，样式代码 sty 定义为：

$\text { sty }=\sigma(\beta(t)) \oplus \sigma\left(\frac{\partial \beta(t)}{\partial t}\right) \oplus \sigma\left(\frac{\partial p(t)}{\partial t}\right) \text {, }$

其中 $\oplus$ 表示向量连接。总而言之，我们得出以下两个结论：
（1）一个身份有多种说话风格，
（2）说话风格与每个视频中面部和头部姿势的变化密切相关
因此我们定义了风格代码用于合成多样化的说话风格，细节将在第 5 节中说明。

5. 方法

根据第4节中定义的风格代码，我们提出了一个两阶段的人脸合成框架来模拟任意的说话风格，如图2所示。我们的框架用以下三个输入合成风格化的谈话视频：一个静态的说话人肖像、驱动音频和风格参考视频。在框架的第一阶段，我们设计了一个潜在风格融合（LSF）模型，通过模仿任意的说话风格来合成风格化的3D人脸。在第二阶段，基于合成的3D对话脸，我们利用延迟神经渲染[30]和少镜头神经纹理生成模型来真实地生成视频帧。在接下来的两个小节中，我们将分别介绍这两个阶段。

5.1 风格化3D人脸合成

在框架的第一阶段，我们提出了用于谈话人脸合成的潜在风格融合（LSF）模型。总的来说，LSF模型的输入是用于风格模仿的驱动音频和参考谈话视频。LSF模型从音频中学习与运动相关的信息，然后将潜在的音频表示与风格信息相结合，合成具有目标说话风格的3D谈话网格。详细说明如下。

对于T 秒的驱动音频 $X_a$ ，我们首先利用DeepSpeech[15]模型提取语音特征。Deepspeech是用于自动语音识别（ASR）的深度神经模型。从DeepSpeech中提取的特征不仅包含丰富的语音信息，而且对背景噪声具有鲁棒性，能够很好地推广到不同的身份。输入音频 $X_a$ 到DeepSpeech模型，生成潜在表示 $\mathrm{X}_d \in \mathbb{R}^{50 T \times D_a}$ , 这里 $D_a$ 是DeepSpeech特征的维度， $50 T$ 表示DeepSpeech特征每秒有50帧。然后，对于参考谈话视频，我们计算其样式代码 $\in \mathbb{R}^{D_s}$ 如第4节所示，风格模仿，其中 $D_s$ 是样式代码的尺寸。

目前已经获得 $\mathrm{X}_d$ 和 $s t y$ ，我们详细介绍3D人脸合成过程。我们设计了一个潜在风格融合（LSF）模型，它采用 $\mathrm{X}_d \in \mathbb{R}^{50 T \times D_a}$ 以及 sty $\in \mathbb{R}^{D_s}$ 作为输入，输出面部动作 $\beta_{\text {pred }}(t) \in \mathbb{R}^{25 T \times 64}$ 和头部姿势运动 $p_{\text {pred }}(t) \in \mathbb{R}^{25 T \times 7}$ ，每秒25帧。基于 $\beta_{\text {pred }}(t)$ 和 $p_{\text {pred }}(t)$ ，我们用3DMM人脸模型重建了3D对话网格[2]。

LSF模型利用一种潜在的融合机制来合成风格化的人脸，并保证音频和运动之间的同步。具体来说，如图2所示，LSF模型首先采用音频 $\mathrm{X}_d$ 作为输入并编码 $\mathrm{X}_d$ 使用ResNet-50[16]的底部，产生潜在的音频表示 $\mathrm{X}_l$ 。然后，LSF模型融合了潜在的音频表示 $X_l$ 和样式代码 $s t y$ ，以获取用于合成的混合表示。在融合过程中，LSF模型首先丢弃了潜在的音频表示 $\mathrm{X}_l$ 得到 $\mathrm{X}_l^{\prime}$ , 而来自sty的信息保持不变。接下来，LSF模型使用样式代码sty，将每一帧的 $\mathrm{X}_l^{\prime}$ 连接起来，输出混合表示。此外，LSF模型利用ResNet-50的头从混合表示中，预测面部运动 \beta_{\text {pred }}(t)$ 和头部姿势运动 $p_{\text {pred }}(t)$ 。值得注意的是，潜在音频表现和风格代码之间的融合能够合成更具表现力的谈话风格。同时，音频信息的丢失防止了为了合成而丢弃样式信息。LSF模型的总体实现简单但有效。

对于LSF模型的训练阶段，我们采用参数序列 $\beta(t), p(t)$ 根据3D人脸重建算法[12]重建结果作为标签。对于每个训练视频，我们计算其风格代码sty并随机剪辑输入音频 $\mathrm{X}_d$ 和标签 $\beta(t), p(t)$ 固定长度。之后，我们输入 $\mathrm{X}_d$ 和LSF模型对应的sty，生成预测的表情参数序列 $\beta_{\text {pred }}(t)$ 和 $p_{\text {pred }}(t)$ 。基于预测 $\beta_{\text {pred }}(t)$ and $p_{\text {pred }}(t)$ , 我们采用如下L1损失：

$\mathcal{L}_{\mathrm{L}_1}=\left\|\beta(t)-\beta_{\text {pred }}(t)\right\|_1+\left\|p(t)-p_{\text {pred }}(t)\right\|_1 .$

值得强调的是，LSF模型的训练不需要对说话身份进行任何额外的注释。只有通过对具有稳定谈话风格的野生视频的训练，我们才能获得表情风格的空间。

在推理阶段，将任意谈话视频的风格代码输入LSF模型，不仅可以产生所需的谈话风格，还可以保持被驱动音频和谈话面孔之间的同步。同时，我们可以在不同的谈话风格之间进行插值，以获得新的谈话风格。对于音频表示 $\mathrm{X}_d$ 对于任意持续时间，由于训练后的LSF模型只提取固定长度的音频，因此我们采用滑动窗口策略来合成相应的面部运动 $\beta_{\text {pred }}(t)$ 和头部姿势运动 $p_{\text {pred }}(t)$ 。

到目前为止，我们已经获得了未经纹理处理的有声3D人脸。在下一小节中，我们将介绍如何真实地渲染这些3D人脸。

5.2 真实感渲染

传统的延迟神经呈现[30]需要每个身份的大量训练数据。为了既能合成真实照片效果，又能保证较少的拍摄容量，我们设计了一种少量拍摄的神经纹理生成模型，并将生成的神经纹理与延迟神经渲染相结合，从而能够合成只有一个源肖像的真实照片视频。如图2所示，延迟神经渲染合并了生成的神经纹理，对神经纹理进行UV纹理采样，并将采样图像转换为真实感区域。

在这里插入图片描述

具体来说，对于输入的3D说话人脸，我们首先利用UV Atlas工具(https://github.com/microsoft/UV Atlas) 获得每个顶点的UV坐标(3D模型中)。然后，我们将3D人脸模型光栅化为2D图像 $X_{u v} \in \mathbb{R}^{2 \times H \times W}$ , 其中每个像素表示UV坐标。随后，对于输入肖像 $\mathbf{X}_p \in \mathbb{R}^{3 \times H \times W}$ 和3D人脸模型，我们提取RGB纹理 $\mathrm{X}_t \in \mathbb{R}^{3 \times H_t \times W_t}$ , 这里 $H_t, W_t$ 表示纹理的高度和宽度。基于 $\mathrm{X}_t$ , 我们利用pix2pix[17]模型生成神经纹理 $\mathrm{Y}_t \in \mathbb{R}^{D_t \times H_t \times W_t}$ , 这里 $D_t$ 表示神经纹理的维度。利用神经纹理，我们在 $\mathrm{X}_{u v}$ 上进行UV纹理采样，以获取采样图像 $\mathrm{X}_s \in \mathbb{R}^{D_t \times H \times W}$ , 采样算法的细节在算法1中进行了说明。最后，我们转换采样图像 $\mathbf{X}_s$ 通过pix2pixHD[34]模型获得照片级真实感图像。

在训练阶段，同时训练少镜头纹理生成模型和延迟神经渲染模型。给定光栅化输入 $\mathbf{X}_{u v}$ , 我们将渲染图像表示为 $\mathrm{Y}^{\prime}$ ，真实标签表示为Y。我们将感知损失[20]和L1损失合并为L，以优化神经纹理和pix2pixHD模型。正式地：
$\mathcal{L}=\left\|\mathrm{Y}-\mathrm{Y}^{\prime}\right\|_1+\left\|\phi(\mathrm{Y})-\phi\left(\mathrm{Y}^{\prime}\right)\right\|_1,$
这里 $\phi(\cdot)$ 是在ImageNet[11]上预处理的VGGNet[26]的前几层。由于3DMM人脸模型的局限性，在我们的渲染中，我们只合成了图像的面部部分，而没有考虑头发和背景渲染。

6. 实验

在本节中，我们进行了大量实验，以证明我们的框架的有效性。我们在收集的Ted HD数据集上评估我们的框架。我们的方法在定性和定量上都取得了较好的综合结果。

6.1 数据集

如第4节所示，当前可用的数据集要么是在具有受限谈话风格的实验室中收集的，要么是在谈话风格不稳定且嘈杂的野外收集的。因此，对于LSF模型的训练和测试，我们利用了第4节中描述的Ted HD数据集。总的来说，Ted HD数据集中有834个视频片段，我们选择799个片段进行训练，并拿出剩下的35个片段进行测试。训练集和测试集在标识上没有重叠。此外，为了训练延迟神经渲染和少数镜头神经纹理生成模型，我们利用了野生唇读（LRW）[8]数据集。

6.2 实现细节

在LSF模型的训练过程中，输入的DeepSpeech音频功能每秒有50帧（FPS），而每个帧都有尺寸 $D_a$ 29维。输入样式代码sty具有尺寸 $D_s$ 共135维(64 用于 𝜎 (𝛽 (𝑡)), 64 用于𝜎 ( 𝜕𝛽 (𝑡 ) / 𝜕𝑡 ), 7 用于 𝜎 ( 𝜕𝑝 (𝑡 ) / 𝜕𝑡 ))。预测的面部运动 $\beta_{\text {pred }}(t)$ 和头部姿势运动 $p_{\text {pred }}(t)$ 每秒有25帧。为了便于训练，我们随机将输入剪辑为80帧，并将输出剪辑为32帧。对于LSF模型的实现，我们应用ResNet-50作为主干。我们利用ResNet-50的前16层对DeepSpeech特征进行编码，将编码的特征与样式代码相结合，并利用ResNet50的最后34层预测运动序列。优化时，我们采用Adam优化器[22]来训练LSF模型，初始学习率为5×10−4.我们以128个样本的小批量进行50000次迭代的培训。

在延迟神经渲染和少数神经纹理生成模型的训练过程中，输入的UV图像 $X_{uv}$ 大小为2×224×224，而神经纹理大小为16×64×64。 $D_t$ 纹理的数量被设置为16，这使得每个像素能够包含更丰富的纹理信息。同时，纹理大小设置为小于UV图像大小，这可以避免在采样过程中过度采样。输出图像 $X_s$ 是常规的RGB图像，大小为3×224×224。优化时，我们采用Adam优化器同时训练神经渲染和纹理生成模型。学习速率设置为2×10−4.我们用6个样本的小批量进行1000000次迭代的培训。

6.3 与VOCA在风格合成方面的比较

据我们所知，VOCA模型[10]是唯一可用于捕捉面部动作的多样化说话风格的方法。因此，在本节中，我们系统地将我们的方法与VOCA模型[10]进行比较，以证明LSF模型的有效性。与我们的方法不同，VOCA模型学习身份级别的谈话风格。具体来说，VOCA模型向时间卷积网络注入一个单热点身份码，并直接从DeepSpeech特征和身份码预测人脸模型顶点。通过调整一个热点身份码，VOCA模型输出不同的通话风格。

表1：不同指标的平均意见得分（MOS）越高表示越好。TSE表示说话风格的表现力，FMN表示面部动作的自然度，AVS表示视听同步。
在这里插入图片描述

我们将从VOCA模型和LSF模型中学习到的样式空间与广泛的用户研究进行了比较。具体来说，我们随机选择10个驱动音频片段，每个片段的持续时间为10到20秒。然后，我们从VOCA风格空间中随机抽取5种谈话风格，从我们方法的风格空间中抽取5种交谈风格。利用采样的谈话风格和驱动音频，我们合成了相应的谈话人脸，并将合成的人脸重新定位到相同的身份。然后，我们将具有相同驱动音频和合成模型的视频归入同一组。对于每组视频，我们邀请20名参与者对（1）谈话风格的表现力，（2）面部动作的自然度，（3）驱动音频和说话面部之间的视听同步进行评分。我们要求参与者在1-5范围内对平均意见得分（MOS）[25]进行评分（MOS得分越高，结果越好）。当向参与者显示视频时，由于VOCA模型只提供未经纹理处理的3D人脸，我们也只提供从LSF模型合成的3D对话人脸，而不是使用延迟神经渲染生成照片级真实感结果以进行公平比较。

表1显示了用户研究的结果。通过实验结果，我们观察到我们的LSF模型获得了更高的说话风格表达能力，这证明通过风格模仿学习的风格空间比身份水平风格空间更具表达能力。同时，我们的LSF模型在面部运动的自然度和视听同步方面比VOCA模型好0.08。这些结果进一步证实了LSF模型中风格模仿的有效性。此外，与每个身份都需要大量训练数据的VOCA模型相比，我们的方法是在不需要任何身份或说话风格注释的野生数据集上训练的。

6.4 风格空间研究

在本节中，我们广泛研究了在我们的方法中学习到的风格空间。我们进行了两个定性实验，验证了合成的谈话风格不仅是多样化的，而且不同谈话风格的插值也可以产生新的谈话风格。

在这里插入图片描述
图5：同一驱动音频的下唇和上唇之间的距离取决于不同的谈话风格。不同的颜色表示不同的说话风格。

为了验证说话风格的多样性，我们将下唇和上唇之间的距离视为时间的函数。具体来说，我们随机选择一段驱动音频和10种不同的谈话风格，然后合成对应于每种谈话风格和驱动音频的10个面部动作。然后，我们计算了唇部距离，如图5所示。通过图5，我们观察到不同说话风格之间的唇部距离有显著差异，这证明LSF模型能够综合多种说话风格。同时，不同的谈话风格表现出相似的波动趋势，距离曲线的峰值和谷值高度重叠，这证实了LSF模型也保证了音频和合成动作之间的同步。

在这里插入图片描述

图4：在相同的驱动音频下，兴奋的谈话风格和严肃的谈话风格之间的插值结果。第一排为庄重的谈话风格，最后一排为激动的谈话风格；中间一排为第一排和最后一排之间的平均风格。在这些行中，我们观察到面部和头部姿势运动的平稳过渡。

为了确认LSF模型中的风格空间具有表达性和插值性，我们可视化了不同说话风格的插值结果，如图4所示。具体来说，我们选择了两种有代表性的说话风格：兴奋和严肃，并在这两种风格之间进行线性插值，以生成新的说话风格。从图4的每一行，我们观察到面部和头部姿势的动作从兴奋的谈话风格平稳地转变为庄重的风格。对于激动的谈话风格，嘴唇的动作被夸大了，头部经常摇晃。同时，对于庄重的谈话风格，嘴唇动作和头部姿势是稳定的。我们在补充材料中提供了更多的合成结果。

6.5 与一次性合成的比较

在本节中，我们通过实验证明，与几种基本方法相比，我们的方法合成了更自然、更具表现力的说话面孔。具体来说，我们将我们的方法与以下基线方法进行了比较：（1）ATVG框架[6]，（2）MakeItTalk框架[41]，（3）Wav2Lip框架[24]。对于需要几秒钟视频作为输入的Wav2Lip框架，我们将输入肖像作为视频重复，以便进行公平比较。图6显示了一些合成结果。我们观察到，我们的方法具有更具表现力的面部运动和头部姿势运动，同时也确保合成结果是真实的。

此外，我们对Ted HD数据集进行了用户研究和定量评估，以验证我们方法的有效性。具体来说，对于用户研究，我们首先用随机选择的20个驱动音频片段和5个不同身份合成视频。然后，对于每个视频，我们邀请20名参与者对（1）面部动作的自然度，（2）驱动音频和说话面部之间的视听同步进行评分。平均意见得分（MOS）的评分范围为1-5。此外，我们还使用信号噪声比（SNR）度量来评估合成视频质量。我们不使用PSNR指标，因为不提供具有任意谈话风格的地面实况谈话视频。

表2：与TedHD数据集上的基线方法比较，其中FMN表示面部运动的自然度，AVS表示视听同步。预融合方法消除了LSF模型中的潜在风格融合，详见第6.6节。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4fHPPhGv-1678084031186)(:/ba3aa2fadb90449a8afbfa367fb0e8b3)]

表2显示了比较结果。从表2可以看出，我们的方法实现了最具表现力的面部运动和最佳视频质量。我们还注意到，Wav2Lip方法实现了令人不满意的运动自然度，因为它无法解决一次性合成场景。同时，我们观察到，我们的方法的AVS略低于Wav2Lip，这是因为我们的LSF模型中的谈话风格合成稍微牺牲了视听同步的性能，但我们的方法仍然比ATVG和MakeItTalk具有更好的AVS性能。

6.6 潜在风格融合的有效性

为了验证LSF模型中潜在风格融合机制的合理性，我们进行了以下消融实验。为了进行比较，我们去掉了潜在的风格融合机制，直接将DeepSpeech表示与风格代码连接起来作为ResNet-50的输入。然后，我们通过类似于6.5节的用户研究，将合成结果与LSF模型进行比较。实验结果如表2的最后两行所示。从结果中我们观察到，如果去掉潜在风格融合机制，运动的自然度和视听同步会显著降低，这证明了潜在风格融合的有效性。同时，视频质量保持不变，因为运动合成不会影响照片级真实感渲染阶段。

7 结论

在本文中，我们提出了风格模仿的概念，用于音频驱动的谈话面部合成。为了模拟任意的谈话风格，我们首先将每个谈话视频的风格代码表示为3DMM参数的几个可解释统计信息。然后，我们设计了一个潜在风格融合（LSF）模型，根据风格代码和驱动音频合成风格化的人脸。语体模仿的引入不仅回避了训练阶段对说话风格的诠释，而且赋予了任意语体合成和新说话风格生成的能力。此外，为了合成富有表现力的谈话风格，我们收集了包含834个谈话视频片段的Ted HD数据集，其中包含稳定和多样化的谈话风格。我们对构建的数据集进行了广泛的实验，并使用Ted HD数据集和LSF模型获得了表达性的合成结果。构建的Ted HD数据集将在未来公开。我们希望，语音风格模拟的提出和Ted HD数据集的构建为音频驱动的人脸合成开辟了一条新的途径。

参考

[1] T. Afouras, J. S. Chung, and A. Zisserman. 2018. LRS3-TED: a large-scale dataset for visual speech recognition. In arXiv preprint arXiv:1809.00496.

[2] Volker Blanz and Thomas Vetter. 1999. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques. 187–194.

[3] Chen Cao, Yanlin Weng, Shun Zhou, Yiying Tong, and Kun Zhou. 2013. Facewarehouse: A 3d facial expression database for visual computing. IEEE Transactions on Visualization and Computer Graphics 20, 3 (2013), 413–425.

[4] Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. 2020. Talking-head Generation with Rhythmic Head Motion. In European Conference on Computer Vision. Springer, 35–51.

[5] Lele Chen, Zhiheng Li, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. 2018. Lip movements generation at a glance. In Proceedings of the European Conference on Computer Vision (ECCV). 520–535.

[6] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. 2019. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 7832– 7841.

[7] J. S. Chung, A. Nagrani, and A. Zisserman. 2018. VoxCeleb2: Deep Speaker Recognition. In INTERSPEECH.

[8] J. S. Chung and A. Zisserman. 2016. Lip Reading in the Wild. In Asian Conference on Computer Vision.

[9] Martin Cooke, Jon Barker, Stuart Cunningham, and Xu Shao. 2006. An audiovisual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America 120, 5 (2006), 2421–2424.

[10] Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, and Michael J Black. 2019. Capture, learning, and synthesis of 3D speaking styles. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10101– 10111.

[11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition. Ieee, 248–255.

[12] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. 2019.Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 0–0.

[13] Sefik Emre Eskimez, You Zhang, and Zhiyao Duan. 2020. Speech Driven Talking Face Generation from a Single Image and an Emotion Condition. arXiv e-prints (2020), arXiv–2008.

[14] Yudong Guo, Jianfei Cai, Boyi Jiang, Jianmin Zheng, et al 2018. Cnn-based real-time dense face reconstruction with inverse-rendered photo-realistic face images. IEEE transactions on pattern analysis and machine intelligence 41, 6 (2018), 1294–1307.

[15] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, et al 2014. Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567 (2014).

[16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition. 770–778.

[17] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. 2017. Image-toImage Translation with Conditional Adversarial Networks. CVPR (2017).

[18] Amir Jamaludin, Joon Son Chung, and Andrew Zisserman. 2019. You said that?: Synthesising talking faces from audio. International Journal of Computer Vision 127, 11 (2019), 1767–1779.

[19] Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, and Feng Xu. 2021. Audio-driven emotional video portraits. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 14080–14089.

[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2016. Perceptual losses for realtime style transfer and super-resolution. In European conference on computer vision. Springer, 694–711.

[21] Tero Karras, Timo Aila, Samuli Laine, Antti Herva, and Jaakko Lehtinen. 2017.Audio-driven facial animation by joint end-to-end learning of pose and emotion.ACM Transactions on Graphics (TOG) 36, 4 (2017), 1–12.

[22] Diederik P. Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, Yoshua Bengio and Yann LeCun (Eds.). http://arxiv.org/abs/1412.6980

[23] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani, and Thomas Vetter. 2009. A 3D face model for pose and illumination invariant face recognition. In 2009 sixth IEEE international conference on advanced video and signal based surveillance. Ieee, 296–301.

[24] KR Prajwal, Rudrabha Mukhopadhyay, Vinay P Namboodiri, and CV Jawahar. 2020. A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM International Conference on Multimedia. 484–492.

[25] ITUT Recommendation. 2006. Vocabulary for performance and quality of service.

[26] Karen Simonyan and Andrew Zisserman. 2015. Very Deep Convolutional Networks for Large-Scale Image Recognition. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, Yoshua Bengio and Yann LeCun (Eds.). http://arxiv.org/abs/1409.1556

[27] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research 15, 1 (2014), 1929–1958.

[28] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. 2017.

Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (ToG) 36, 4 (2017), 1–13.

[29] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nießner. 2020. Neural voice puppetry: Audio-driven facial reenactment. In European Conference on Computer Vision. Springer, 716–731.

[30] Justus Thies, Michael Zollhöfer, and Matthias Nießner. 2019. Deferred neural rendering: Image synthesis using neural textures. ACM Transactions on Graphics (TOG) 38, 4 (2019), 1–12.

[31] Laurens Van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-SNE. Journal of machine learning research 9, 11 (2008).

[32] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, and Chen Change Loy. 2020. Mead: A large-scale audiovisual dataset for emotional talking-face generation. In European Conference on Computer Vision. Springer, 700–717.

[33] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, and Chen Change Loy. 2020. MEAD: A Large-scale Audio-visual Dataset for Emotional Talking-face Generation. In ECCV.

[34] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. 2018. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE conference on computer vision and pattern recognition. 8798–8807.

[35] Olivia Wiles, A Koepke, and Andrew Zisserman. 2018. X2face: A network for controlling face generation using images, audio, and pose codes. In Proceedings of the European conference on computer vision (ECCV). 670–686.

[36] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. 2020. Audiodriven talking face video generation with learning-based personalized head pose.arXiv e-prints (2020), arXiv–2002.

[37] Lingyun Yu, Jun Yu, Mengyan Li, and Qiang Ling. 2020. Multimodal inputs driven talking face generation with spatial-temporal dependency. IEEE Transactions on Circuits and Systems for Video Technology (2020).

[38] Dan Zeng, Han Liu, Hui Lin, and Shiming Ge. 2020. Talking Face Generation with Expression-Tailored Generative Adversarial Network. In Proceedings of the 28th ACM International Conference on Multimedia. 1716–1724.

[39] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. 2019. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 9299–9306.

[40] Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang, and Ziwei Liu. 2021. Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 4176–4186.

[41] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. 2020. MakeltTalk: speaker-aware talking-head animation. ACM Transactions on Graphics (TOG) 39, 6 (2020), 1–15.