2020-ACM-A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
作者:K R Prajwal, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C V Jawahar
单位:IIIT, Hyderabad, India, University of Bath, England
论文地址:https://dl.acm.org/doi/abs/10.1145/3394171.3413532
摘要
在本研究中,我们研究了对任意身份的说话人脸视频进行口型同步以匹配目标语音片段的问题。当前的研究擅长在训练阶段在静态图像或特定人物的视频上产生准确的唇部运动。然而,它们无法准确地改变动态、不受约束的说话人脸视频中任意身份的唇部运动,导致视频的大部分与新音频不同步。我们确定了与此有关的关键原因,并通过向强大的口型同步鉴别器学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量不受约束的视频中的口型同步。对我们具有挑战性的基准进行的大量定量评估表明,我们的 Wav2Lip
模型生成的视频的口型同步准确度几乎与真正的同步视频一样好。我们在网站上提供了一个演示视频,清晰地展示了我们的 Wav2Lip 模型和评估基准的巨大影响:cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild。代码和模型发布在这里:github.com/Rudrabha/Wav2Lip。您也可以通过此链接试用交互式演示:bhaasha.iiit.ac.in/lipsync。
CCS 概念
计算方法 → \to →计算机视觉;从批评中学习;音系学/形态学。
关键词
口型同步;视频生成;说话脸部生成
ACM 参考格式:
K R Prajwal、Rudrabha Mukhopadhyay、Vinay P. Namboodiri 和 C V Jawa- har。2020 年。唇形同步专家是您在野外进行语音到唇形生成所需的一切。第 28 届 ACM 国际多媒体会议 (MM '20) 论文集,2020 年 10 月 12 日至 16 日,美国华盛顿州西雅图。ACM,美国纽约州纽约,10 页。https://doi.org/10.1145/3394171.3413532
1. 引言
随着视听内容消费的指数级增长 [21],快速创建视频内容已成为一种基本需求。同时,让这些视频能够以不同的语言呈现也是一个关键挑战。例如,如果将深度学习系列讲座、著名电影或全国性公开演讲翻译成所需的目标语言,数百万新观众就可以观看。翻译此类说话人脸视频或创建新视频的一个关键方面是纠正口型同步以匹配所需的目标语音。因此,口型同步说话人脸视频以匹配给定的输入音频流已在研究界引起广泛关注 [6, 13, 17, 18, 23]。
在这个领域,早期使用深度学习的研究 [19, 22] 通过几个小时的单个说话人数据,学会了从语音表征到唇部特征的映射。这方面较新的研究 [13, 23] 直接从语音表征生成图像,并针对经过训练的特定说话人展示了卓越的生成质量。然而,许多实际应用需要能够轻松处理通用身份和语音输入的模型。这导致了独立于说话人的语音到唇部生成模型 [17, 18] 的创建,这些模型经过数千个身份和声音的训练。它们可以在任何身份的任何声音的单个静态图像上生成准确的唇部运动,包括由文本到语音系统生成的合成语音 [18]。然而,为了用于翻译讲座/电视剧等应用,这些模型需要能够改变这些动态、不受约束的视频中存在的各种唇形,而不仅仅是静态图像。
我们的工作建立在后一类与说话人无关的工作的基础上,这些工作旨在对任何身份和声音的说话人脸视频进行口型同步。我们发现,这些适用于静态图像的模型无法准确地改变不受约束的视频内容中各种各样的唇形,导致生成的视频的很大一部分与新的目标音频不同步。观众可以识别出持续时间仅为 ≈ 0.05 − 0.1 \approx0.05−0.1 ≈0.05−0.1 秒 [9] 的不同步视频片段。因此,考虑到允许的误差程度很小,令人信服地将真实世界的视频与全新的语音进行口型同步是相当具有挑战性的。此外,我们的目标是一种与说话人无关的方法,而不需要任何额外的特定于说话人的数据开销,这一事实使我们的任务更加困难。真实世界的视频包含快速的姿势、比例和光照变化,生成的人脸结果也必须无缝融入原始目标视频。
我们首先检查现有的独立于说话者的语音到唇部生成方法。我们发现这些模型没有充分惩罚错误的唇形,要么是因为只使用了重建损失,要么是因为口型同步判别器较弱。我们采用了一个强大的口型同步判别器,可以强制生成器始终产生准确、逼真的唇部运动。接下来,我们重新检查当前的评估协议,并设计了新的、严格的评估基准,这些基准源自三个标准测试集。我们还提出了可靠的评估指标,使用 Sync-Net [9] 来精确评估无约束视频中的口型同步。我们还收集并发布了 ReSyncED,这是一组具有挑战性的真实视频,可以对模型在实践中的表现进行基准测试。我们进行了广泛的定量和主观人工评估,并在所有基准测试中大大超越了以前的方法。我们的主要贡献/主张如下:
- 我们提出了一种新颖的口型同步网络 Wav2Lip,与之前的研究相比,该网络在对自然界中任意说话人脸视频进行口型同步时,其准确度显著提高。
- 我们提出了一个新的评估框架,包括新的基准和指标,以便公平地判断不受约束的视频中的口型同步。
- 我们收集并发布了 ReSyncED,这是一个真实世界的口型同步评估数据集,用于对口型同步模型在自然界中完全看不见的视频上的性能进行基准测试。
- Wav2Lip 是第一个独立于说话者的模型,其口型同步精度与真实同步视频相匹配。人工评估表明,与现有方法和未同步版本相比,Wav2Lip 生成的视频在 90% 以上的时间内更受欢迎。
您可以在我们的网站1上找到一个演示视频,其中有几个定性示例,清楚地说明了我们模型的影响。我们还将在网站上发布一个交互式演示,允许用户使用他们选择的音频和视频样本试用该模型。本文的其余部分安排如下:第 2 节概述了语音到唇语生成领域的最新发展,第 3 节讨论了现有工作中存在的问题并描述了我们提出的缓解这些问题的方法,第 4 节提出了一个新的、可靠的评估框架。我们在第 5 节中描述了各种潜在的应用并解决了一些道德问题,并在第 6 节中总结。
1 cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild
2. 相关工作
2.1. 语音中受约束的说话脸部生成
我们首先回顾一下说话人脸生成的研究,这些研究要么受限于它们能生成的身份范围,要么受限于它们所能使用的词汇范围。最近的一些研究 [19, 22] 使用 Barack Obama 的视频,生成了真实的说话人脸视频。它们学习输入音频和相应唇部特征之间的映射。由于它们只针对特定说话人进行训练,因此无法合成新的身份或声音。它们还需要特定说话人的大量数据,通常需要几个小时。最近的一项研究 [13] 沿着这条思路提出通过在语音中添加或删除短语来无缝编辑各个说话人的视频。为了完成这项任务,它们仍然需要每个说话人一小时的数据。最近,另一项研究 [23] 尝试通过使用两阶段方法来最小化这些数据开销,他们首先学习与说话人无关的特征,然后使用约 5 分钟的目标说话人数据学习渲染映射。然而,他们在明显较小的语料库上训练说话人无关网络,而且还需要为每个目标说话人生成干净的训练数据,这增加了额外开销。现有作品的另一个限制是词汇量。几部作品 [5, 26, 28] 在词汇量有限的数据集上进行训练,如 GRID [10](56 个词)、TIMIT [14] 和 LRW [8](1000 个词),这严重妨碍了模型学习真实视频中种类繁多的音素-视素映射 [18]。我们的工作重点是对无约束的说话人脸视频进行口型同步,以匹配任何目标语音,不受身份、声音或词汇的限制。
2.2. 从语音中生成不受约束的说话人脸
尽管语音驱动人脸生成方面的研究数量不断增加,但令人惊讶的是,很少有研究被设计用于对任意身份、声音和语言的视频进行口型同步。它们不是在一小组身份或一小段词汇上进行训练的。这使得它们在测试时可以对任何语音的随机身份进行口型同步。据我们所知,目前文献中只有两篇这样的杰出作品 [17, 18]。请注意,[17] 是 [7] 的扩展版本。这两部作品 [17, 18] 都将在野外学习口型同步的任务表述如下:给定一个短语音片段 S S S 和一个随机参考人脸图像 R R R,网络的任务是生成与音频匹配的输入人脸的口型同步版本 L g L_g Lg。此外,LipGAN 模型还输入了下半部分被遮盖的目标人脸作为姿势先验。这至关重要,因为它允许将生成的脸部裁剪无缝粘贴回原始视频中,而无需进一步的后处理。它还与生成器一起训练鉴别器,以区分同步或不同步的音频视频对。然而,这两项工作都存在一个重大限制:它们在任意身份的静态图像上效果很好,但在尝试对野外不受约束的视频进行口型同步时会产生不准确的口型生成。与 LipGAN [18] 中使用的 GAN 设置不同,我们使用预先训练的准确口型同步鉴别器,无需使用生成器进行进一步训练。我们观察到,这是一个重要的设计选择,可以实现更好的口型同步结果。
3. 野外视频的精确语音驱动唇形同步
我们的核心架构可以概括为 “通过向训练有素的口型同步专家学习来生成准确的口型同步”。为了理解这种设计选择,我们首先确定了现有架构(第 2.2 节)在自然情况下产生不准确口型同步的两个关键原因。我们认为损失函数,即现有作品 [17, 18] 中使用的 L1 重建损失和 LipGAN [18] 中的鉴别器损失不足以惩罚不准确的口型同步生成。
3.1. 像素级重建损失是口型同步的弱判定标准
面部重建损失是针对整幅图像计算的,以确保生成正确的姿势、保留身份,甚至保留面部周围的背景。唇部区域占总重建损失的不到 4%(基于空间范围),因此在网络开始执行细粒度唇形校正之前,首先优化了大量周围图像重建。网络仅在训练过程(约 20 个 epoch [18])的一半左右(约 11 个 epoch)才开始变形唇部,这一事实进一步支持了这一点。因此,必须有一个额外的鉴别器来判断唇形同步,就像 LipGAN [18] 中所做的那样。但是,LipGAN 中使用的鉴别器有多强大呢?
3.2. 弱口型同步判别器
我们发现 LipGAN 的口型同步判别器在 LRS2 测试集上检测不同步音频口型对时准确率仅为 56% 左右。相比之下,我们将在这项工作中使用的专家判别器在同一测试集上的准确率为 91%。我们假设这种差异有两个主要原因。首先,LipGAN 的判别器使用单帧来检查口型同步。在表 3 中,我们表明,在检测口型同步时,较小的时间背景非常有用。其次,由于大规模和姿势变化,训练期间生成的图像包含大量伪影。我们认为,在这些嘈杂的生成图像上训练 GAN 设置中的判别器(如 LipGAN 中所做的那样)会导致判别器专注于视觉伪影而不是音频口型对应关系。这导致不同步检测准确率大幅下降(表 3)。我们论证并表明,从实际视频帧中捕获的 “真实”、准确的口型同步概念可用于准确区分和强制生成图像中的口型同步。
3.3. 您需要的只是口型同步专家
基于以上两个发现,我们建议使用预先训练的专家口型同步鉴别器,该鉴别器可以准确检测真实视频中的同步。此外,它不应像在 LipGAN 中那样在生成的帧上进一步微调。SyncNet [9] 模型就是这样一个网络,它已用于纠正口型同步错误以创建大型口型同步数据集 [1, 3]。我们建议为我们的任务调整和训练 SyncNet [9] 的修改版本。
3.3.1 SyncNet 概述
SyncNet [9] 输入一个由 T v T_v Tv 个连续人脸帧(仅下半部分)组成的窗口 V V V 和一个大小为 T a × D T_a\times D Ta×D 的语音片段 S S S,其中 T v T_v Tv 和 T a T_a Ta 分别是视频和音频时间步长。它通过随机采样与视频对齐(同步)或来自不同时间步长(不同步)的音频窗口 T a × D T_a\times D Ta×D 来训练以区分音频和视频之间的同步。它包含一个面部编码器和一个音频编码器,两者均由一堆 2D 卷积组成。计算这些编码器生成的嵌入之间的 L2 距离,并使用最大边际损失训练模型,以最小化(或最大化)同步(或不同步)对之间的距离。
3.3.2 我们的专家唇形同步鉴别器
我们对 SyncNet [9] 进行了以下更改,以训练适合我们的唇形生成任务的专家唇形同步鉴别器。首先,我们不再像原始模型那样输入按通道连接的灰度图像,而是输入彩色图像。其次,我们的模型明显更深,具有残差跳过连接 [15]。第三,受此公开实现2的启发,我们使用了不同的损失函数:具有二元交叉熵损失的余弦相似度。也就是说,我们计算 ReLU 激活视频和语音嵌入 v , s v,\ s v, s 之间的点积,为每个样本生成一个介于 [ 0 , 1 ] [0,\ 1] [0, 1] 之间的值,该值表示输入音频视频对同步的概率:
我们在 LRS2 训练集(约 29 小时)上训练我们的专家口型同步鉴别器,批处理大小为 64, T v = 5 T_v=5 Tv=5 帧,使用 Adam 优化器 [12],初始学习率为 1 e − 3 1e^{−3} 1e−3。我们的专家口型同步鉴别器在 LRS2 测试集上的准确率约为 91%,而 LipGAN 中使用的鉴别器在同一测试集上的准确率仅为 56%。
2 github.com/joonson/syncnet_trainer
3.4. 通过向口型同步专家学习来生成准确的口型同步
现在我们有了准确的口型同步鉴别器,现在可以使用它来惩罚生成器(图 2),以防在训练期间生成不准确。我们首先描述生成器架构。
3.4.1 生成器架构细节
我们使用与 LipGAN [18] 类似的生成器架构。我们的主要贡献在于使用专家判别器对其进行训练。生成器 G G G 包含三个块:(i)身份编码器、(ii)语音编码器和(iii)人脸解码器。身份编码器是一堆残差卷积层,用于编码随机参考帧 R R R,并与沿通道轴的姿势先验 P P P(下半部分被遮盖的目标脸)连接。语音编码器也是一堆 2D 卷积,用于编码输入语音段 S S S,然后将其与人脸表示连接。解码器也是一堆卷积层,以及用于上采样的转置卷积。生成器经过训练,可最小化生成的帧 L g L_g Lg 和真实帧 L G L_G LG 之间的 L1 重建损失:
因此,生成器与之前的作品类似,是一个 2D-CNN 编码器-解码器网络,可独立生成每个帧。那么我们如何使用预先训练的专家口型同步鉴别器(需要 T v = 5 T_v=5 Tv=5 帧的时间窗口作为输入)呢?
3.4.2 惩罚不准确的唇部生成
在训练期间,由于第 3.3 节中训练的专家鉴别器每次处理 T v = 5 T_v=5 Tv=5 个连续帧,因此我们还需要生成器 G G G 来生成所有 T v = 5 T_v=5 Tv=5 个帧。我们为参考帧采样一个随机连续窗口,以确保整个 T v T_v Tv 窗口的姿势等尽可能具有时间一致性。由于我们的生成器独立处理每个帧,因此我们在输入参考帧的同时沿批处理维度堆叠时间步骤以获得 ( N ⋅ T v , H , W , 3 ) \left(N\cdot T_v,\ H,\ W,\ 3\right) (N⋅Tv, H, W, 3) 的输入形状,其中 N , H , W N,\ H,\ W N, H, W 分别是批处理大小、高度和宽度。在将生成的帧输入专家鉴别器时,时间步骤沿通道维度连接,就像在训练鉴别器期间所做的那样。专家鉴别器的最终输入形状为 ( N , H / 2 , W , 3 ⋅ T v ) \left(N,\ H/2,\ W,\ 3\cdot T_v\right) (N, H/2, W, 3⋅Tv),其中仅使用生成的面部的下半部分进行鉴别。生成器还经过训练,以最小化来自专家鉴别器的 “专家同步损失(expert sync-loss)” E s y n c E_{sync} Esync:
其中 P s y n c i P^i_{sync} Psynci 根据公式 1 计算。请注意,专家鉴别器的权重在生成器训练期间保持不变。这种基于从真实视频中学习到的口型同步概念的强大鉴别力迫使生成器也实现逼真的口型同步,以最大限度地减少口型同步损失 E s y n c E_{sync} Esync。
3.5. 生成照片般逼真的脸部
在我们的实验中,我们观察到使用强大的口型同步鉴别器会迫使生成器产生准确的唇形。然而,有时这会导致变形区域略微模糊或包含轻微伪影。为了减轻这种轻微的质量损失,我们在 GAN 设置中与生成器一起训练了一个简单的视觉质量鉴别器。因此,我们有两个鉴别器,一个用于同步准确性,另一个用于更好的视觉质量。口型同步鉴别器未在 GAN 设置中训练,原因在 3.2 中进行了解释。另一方面,由于视觉质量鉴别器不对口型同步执行任何检查,并且仅惩罚不切实际的脸部生成,因此它是在生成的脸上进行训练的。
鉴别器 D D D 由一堆卷积块组成。每个块由一个卷积层和 Leaky ReLU 激活组成 [20]。训练鉴别器以最大化目标函数 L d i s c L_{disc} Ldisc(公式 5):
其中 L g L_g Lg 对应于生成器 G G G 中的图像, L G L_G LG 对应于真实图像。
生成器最小化公式 6,它是重建损失(公式 2)、同步损失(公式 3)和对抗损失 L g e n L_{gen} Lgen(公式 4)的加权和:
其中 s w s_w sw 是同步惩罚权重, s g s_g sg 是对抗性损失,在我们所有的实验中,它们都根据经验设置为 0.03 和 0.07。因此,我们的完整网络使用两个不相交的鉴别器针对卓越的同步准确度和质量进行了优化。
我们仅在 LRS2 训练集 [1] 上训练我们的模型,批量大小为 80。我们使用 Adam 优化器 [12],初始学习率为 1 e − 4 1e^{−4} 1e−4,对于生成器和视觉质量鉴别器 D D D, β 1 = 0.5 , β 2 = 0.999 \beta_1=0.5,\ \beta_2=0.999 β1=0.5, β2=0.999。请注意,唇形同步鉴别器未进一步微调,因此其权重被冻结。我们通过解释它在对真实视频进行推理时的工作方式来总结对我们提出的架构的描述。与 Lip-GAN [18] 类似,该模型逐帧生成会说话的脸部视频。每个时间步的视觉输入是当前人脸裁剪图(来自源帧),与相同的当前人脸裁剪图连接,下半部分被遮盖,用作姿势先验。因此,在推理过程中,模型不需要改变姿势,从而显著减少伪影。相应的音频片段也作为语音子网络的输入,网络生成输入人脸裁剪图,但嘴部区域已变形。
我们的所有代码和模型都将公开发布。我们现在将根据以前的模型定量评估我们的新方法。
4. 定量评估
尽管仅在 LRS2 训练集上进行训练,但我们还是在 3 个不同的数据集上评估了我们的模型。但在这样做之前,我们重新调查了之前作品中遵循的当前评估框架,以及为什么它远非评估该领域作品的理想方式。
4.1. 重新思考语音驱动的自然唇形同步评估框架
当前独立于说话者的唇形同步评估框架对模型的判断方式与对真实视频进行唇形同步时使用的方式不同。具体来说,不是将当前帧作为参考(如上一节所述),而是选择视频中的随机帧作为参考,以免在评估过程中泄露正确的唇形信息。我们强烈主张,上一段中的评估框架并不适用于评估唇形同步的质量和准确性。在仔细研究上述评估系统后,我们发现了一些关键的局限性,我们将在下面讨论。
4.1.1 无法反映真实世界的使用情况
如前所述,在测试时生成时,模型不得改变姿势,因为生成的脸部需要无缝粘贴到框架中。但是,当前的评估框架在输入中提供随机参考帧,从而要求网络改变姿势。因此,上述系统无法评估模型在现实世界中的使用方式。
4.1.2 评估不一致
由于参考帧是随机选择的,这意味着测试数据在不同作品之间不一致。这会导致不公平的比较并妨碍结果的可重复性。
4.1.3 不支持检查时间一致性
由于参考帧是在每个时间步骤随机选择的,因此由于帧是以随机姿势和比例生成的,因此时间一致性已经丧失。当前框架无法支持旨在研究此问题的时间一致性方面的新指标或未来方法。
4.1.4 当前指标并非专门针对口型同步
现有指标(如 SSIM [27] 和 PSNR)是为评估整体图像质量而非细粒度口型同步误差而开发的。尽管 LMD [4] 专注于唇部区域,但我们发现生成的面部上的唇部标记可能非常不准确。因此,需要一种专门用于测量口型同步误差的指标。
4.2 用于在野外评估口型同步的新型基准和指标
之所以要对随机帧进行采样以进行评估,是因为当前帧已经与语音同步,导致输入本身的口型泄漏。之前的研究并没有尝试采样不同的语音片段,而是采样不同的帧,因为采样语音的真实口型不可用。
4.2.1 用于测量口型同步误差的指标
我们建议使用公开提供的预训练 SyncNet [9]3 来测量生成的帧与随机选择的语音片段之间的口型同步误差。SyncNet 在视频片段上的平均准确率超过 99% [9]。因此,我们相信这可以成为一种很好的自动评估方法,可以在野外明确测试不受约束的视频中的准确口型同步。请注意,这不是我们上面训练过的专家唇形同步鉴别器,而是 Chung 和 Zisserman [9] 发布的唇形同步鉴别器,它是在另一个非公开数据集上训练的。使用 SyncNet 解决了现有评估框架的主要问题。我们不再需要对随机、时间上不连贯的帧进行采样,SyncNet 在评估唇形同步时还会考虑短距离时间一致性。因此,我们提出了两个使用 SyncNet 模型自动确定的新指标。第一个是根据唇形和音频表示之间的距离计算的平均误差测量,我们将其命名为 “LSE-D”(“唇形同步误差 - 距离”)。较低的 LSE-D 表示较高的视听匹配度,即语音和唇形运动同步。第二个指标是平均置信度得分,我们将其命名为 “LSE-C”(唇形同步误差 - 置信度)。置信度越高,音频-视频相关性越好。较低的置信度得分表示视频中有几个部分的唇部动作完全不同步。更多详细信息请参阅 SyncNet 论文 [9]。
3 github.com/joonson/syncnet_python
4.2.2 用于在野外评估口型同步的一致基准
既然我们有了一个可以为任何视频和音频对计算的自动、可靠的指标,我们可以在每个时间步长采样随机语音样本而不是随机帧。因此,我们可以创建一个视频对列表和伪随机选择的音频作为一致测试集。我们创建了三个一致的基准测试集,每个测试集分别使用 LRS2 [1]、LRW [8] 和 LRS3 [3] 的测试集视频。对于每个视频 V s V_s Vs,我们从另一个随机采样的视频 V t V_t Vt 中获取音频,条件是语音的长度 Vt 小于 V s V_s Vs。我们使用 LRS2 创建 14K 个音频-视频对。使用 LRW 测试集,我们创建了 28K 个对,这个集合测量正面/近正面视频的性能 [2]。我们还使用 LRS3 测试集创建了 14K 对,这也将成为侧面视图中口型同步的基准。完整的评估工具包将公开发布,以便在野外对口型同步视频进行一致且可靠的基准测试。
4.3. 在新基准上比较模型
我们使用 LSE-D 和 LSE-C 指标在我们新创建的测试集上比较了之前的两种方法 [17, 18]。在推理过程中,我们现在在每个时间步骤中输入相同的参考和姿势先验,类似于之前在架构部分中描述的方式。表 1 显示了所有三个测试分割中的音频-视频对的平均 LSE-D 和 LSE-C 分数。此外,为了衡量生成人脸的质量,我们还报告了 FrÃľchet 初始距离(FID)。我们的方法大大优于以前的方法,表明强大的口型同步鉴别效果显著。我们还可以看到在使用视觉质量鉴别器和口型同步专家鉴别器后质量有显著改善。然而,我们观察到使用视觉质量鉴别器后同步准确度略有下降。因此,我们将发布这两个模型,因为它们在视觉质量和同步准确度之间有轻微的权衡。
4.4 真实世界评估
除了仅对标准数据集进行评估外,我们的新评估框架和指标还允许我们对最有可能使用这些模型的真实世界视频进行评估。此外,考虑到人类对音频唇同步的敏感性 [9],还需要在人类评估者的帮助下评估我们的结果。因此,与之前关于独立于说话者的唇同步的研究相反,我们首次对来自网络的不受约束的真实视频进行了定量和人工评估实验。因此,我们收集并公开发布 “ReSyncED” 这个 “真实世界评估数据集”,以主观和客观地对唇同步作品的性能进行基准测试。
4.4.1 策划 ReSyncED
我们所有的视频都是从 YouTube 下载的。我们特意选择了三种类型的视频示例。第一种类型是 “配音”,包含音频自然不同步的视频,例如配音电影剪辑或现场翻译成不同语言的公共演讲(因此演讲者的嘴唇与翻译后的语音不同步)。第二种类型是 “随机”,我们有一个视频集合,我们创建类似于 4.2.2 的随机视听对。第三类也是最后一类视频 “TTS” 是专门为测试从文本转语音系统获得的合成语音的口型同步性能而选择的。这对于未来希望自动翻译视频(面对面翻译 [18])或快速创建新视频内容的工作至关重要。我们手动转录文本,使用谷歌翻译(总共约 5 种语言)和公开的文本转语音模型为该类别的视频生成合成翻译语音。任务是纠正原始视频中的唇部动作以匹配此合成语音。
4.4.2 在 ReSyncED 上进行真实世界评估
我们首先使用从 SyncNet [9] 获得的新自动指标 “LSE- D” 和 “LSE-C” 评估生成的真实视频结果。对于人工评估,我们要求 14 位评估人员根据以下参数判断视频的不同同步版本:(a) 同步准确度 (b) 视觉质量(评估视觉伪影的程度),© 整体体验(评估视听内容的整体体验),以及 (d) 偏好,观看者选择最有吸引力的视频版本。前三个参数的得分在 1-5 之间,(d) 是单选投票,我们报告模型获得的投票百分比。我们分别评估了这三类视频,并在表 2 中报告了我们的结果。值得注意的结果是,之前的作品 [17, 18] 产生了几个不同步的片段,因此不如不同步的版本受欢迎,因为后者仍然保留了良好的视觉质量。因此,我们的工作是第一个在野外提供比不同步的说话脸视频显着改进的作品。我们还在图 3 中展示了一些定性比较,其中包含来自 ReSyncED 测试集的一些生成样本。
4.5 我们的专家鉴别器是替代方案中最好的吗?
我们的专家鉴别器使用 T v = 5 T_v=5 Tv=5 个视频帧来测量口型同步误差。它也不会在 GAN 设置中针对生成的人脸进行微调。我们在本消融研究中证明了这两种设计选择的合理性。我们可以通过从 LRS2 测试集中随机抽样同步和非同步对来测试鉴别器的性能。我们改变 T v = 1 , 3 , 5 T_v=1,\ 3,\ 5 Tv=1, 3, 5 的大小以了解其对检测同步的影响。我们还在训练 Wav2Lip 模型时对 T v T_v Tv 的三个变体中的每一个进行微调/冻结。因此,我们在表 3 中得到了总共 6 种变体,从中我们可以清楚地得出两个观察结果。增加时间窗口大小 T v T_v Tv 始终可以提供更好的口型同步鉴别性能。更重要的是,我们发现,如果我们在包含伪影的生成人脸上微调鉴别器,那么鉴别器就会失去检测不同步的视听对的能力。我们认为,发生这种情况的原因是经过微调的鉴别器专注于识别生成的面部中的视觉伪影,而不是细粒度的音频唇部对应。因此,它将真实的不同步对归类为 “同步”,因为这些真实的面部图像不包含任何伪影。从长远来看,使用如此弱的鉴别器会导致我们的生成器的口型同步惩罚较差,从而导致口型同步较差的说话面部视频。
5. 应用和合理使用
在我们的内容消费和社交交流日益视听化的时代,迫切需要大规模的视频翻译和创作。Wav2Lip 可以在满足这些需求方面发挥重要作用,因为它对野外视频的翻译非常准确。例如,通常使用英语的在线讲座视频现在可以与其他本地语言的(自动)配音语音进行口型同步(表 2,最后一块)。我们还可以对配音电影进行口型同步,使其更加赏心悦目(表 2,第一块)。每天,全球各地的新闻发布会和公开演讲都是现场翻译的,但演讲者的嘴唇与翻译后的演讲不同步。我们的模型可以无缝地纠正这个问题。自动将 CGI 角色的嘴唇动画化为配音演员的演讲可以节省数小时的手动工作,同时制作动画电影和丰富的对话游戏内容。我们在我们网站上的演示视频中展示了所有这些应用程序以及更多应用程序的模型。
我们认为,讨论和促进日益强大的口型同步作品的合理使用也至关重要。我们的模型具有近乎真实的口型同步能力,适用于任何身份和声音,这引发了人们对滥用可能性的担忧。因此,我们强烈建议使用我们的代码和模型创建的任何结果都必须明确地表示为合成的。除了上述强烈的积极影响之外,我们完全开源我们工作的意图是,它同时还可以鼓励 [11, 16, 24, 25] 努力检测被操纵的视频内容及其滥用。我们相信 Wav2Lip 可以实现多种积极的应用,也可以鼓励关于合成内容合理使用的富有成效的讨论和研究工作。
6. 结论
在这项研究中,我们提出了一种在野外生成准确口型同步视频的新方法。我们重点介绍了当前方法在对不受约束的说话脸部视频进行口型同步时不准确的两个主要原因。基于此,我们认为经过预先训练的准确唇形同步“专家”可以强制生成准确、自然的唇形运动。在评估我们的模型之前,我们重新审视了当前的定量评估框架,并强调了几个主要问题。为了解决这些问题,我们提出了几个新的评估基准和指标,以及一个真实世界的评估集。我们相信,未来的作品可以在这个新框架中得到可靠的评判。我们的 Wav2Lip 模型在定量指标和人工评估方面都远远优于当前方法。我们还在一项消融研究中调查了我们在鉴别器中的设计选择背后的原因。我们鼓励读者在我们的网站上观看演示视频。我们相信我们在这个问题上的努力和想法可以引领新的方向,例如合成表情和头部姿势以及准确的唇部运动。
参考文献
[1] T. Afouras, J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. 2018. Deep Audio-Visual Speech Recognition. In arXiv:1809.02108.
[2] T. Afouras, J. S. Chung, and A. Zisserman. 2018. The Conversation: Deep Audio- Visual Speech Enhancement. In INTERSPEECH.
[3] TriantafyllosAfouras,JoonSonChung,andAndrewZisserman.2018.LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496 (2018).
[4] LeleChen,ZhihengLi,RossKMaddox,ZhiyaoDuan,andChenliangXu.2018. Lip movements generation at a glance. In Proceedings of the European Conference on Computer Vision (ECCV). 520–535.
[5] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. 2019. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 7832–7841.
[6] Lele Chen, Haitian Zheng, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. 2019. Sound to Visual: Hierarchical Cross-Modal Talking Face Video Generation. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition workshops.
[7] Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. 2017. You said that? arXiv preprint arXiv:1705.02966 (2017).
[8] Joon Son Chung and Andrew Zisserman. 2016. Lip reading in the wild. In Asian Conference on Computer Vision. Springer, 87–103.
[9] Joon Son Chung and Andrew Zisserman. 2016. Out of time: automated lip sync in the wild. In Workshop on Multi-view Lip-reading, ACCV.
[10] Martin Cooke, Jon Barker, Stuart Cunningham, and Xu Shao. 2006. An audio- visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America 120, 5 (2006), 2421–2424.
[11] Brian Dolhansky, Joanna Bitton, Ben Pflaum, Jikuo Lu, Russ Howes, Menglin Wang, and Cristian Canton Ferrer. 2020. The DeepFake Detection Challenge Dataset. arXiv:2006.07397 [cs.CV]
[12] John Duchi, Elad Hazan, and Yoram Singer. 2011. Adaptive subgradient methods for online learning and stochastic optimization. Journal of machine learning research 12, 7 (2011).
[13] Ohad Fried, Ayush Tewari, Michael Zollhöfer, Adam Finkelstein, Eli Shecht- man, Dan B Goldman, Kyle Genova, Zeyu Jin, Christian Theobalt, and Maneesh Agrawala. 2019. Text-based editing of talking-head video. ACM Transactions on Graphics (TOG) 38, 4 (2019), 1–14.
[14] Naomi Harte and Eoin Gillen. 2015. TCD-TIMIT: An audio-visual corpus of continuous speech. IEEE Transactions on Multimedia 17, 5 (2015), 603–615.
[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition. 770–778.
[16] Chih-Chung Hsu, Yi-Xiu Zhuang, and Chia-Yen Lee. 2020. Deep Fake Image Detection based on Pairwise Learning. Applied Sciences 10 (2020), 370.
[17] Amir Jamaludin, Joon Son Chung, and Andrew Zisserman. 2019. You said that?: Synthesising talking faces from audio. International Journal of Computer Vision 127, 11-12 (2019), 1767–1779.
[18] PrajwalKR,RudrabhaMukhopadhyay,JerinPhilip,AbhishekJha,VinayNam-boodiri, and CV Jawahar. 2019. Towards Automatic Face-to-Face Translation. In Proceedings of the 27th ACM International Conference on Multimedia. ACM, 1428–1436.
[19] RitheshKumar,JoseSotelo,KundanKumar,AlexandredeBrébisson,andYoshua Bengio. 2017. Obamanet: Photo-realistic lip-sync from text. arXiv preprint arXiv:1801.01442 (2017).
[20] AndrewLMaas,AwniYHannun,andAndrewYNg.2013.Rectifiernonlinearities improve neural network acoustic models. In Proc. icml, Vol. 30. 3.
[21] NPD. 2016. 52 Percent of Millennial Smartphone Owners Use their Device for Video Calling,AccordingtoTheNPDGroup. https://www.npd.com/wps/portal/npd/us/ news/press- releases/2016/52- percent- of- millennial- smartphone- owners- use- their- device- for- video- calling- according- to- the- npd- group/
[22] SupasornSuwajanakorn,StevenMSeitz,andIraKemelmacher-Shlizerman.2017. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36, 4 (2017), 95.
[23] JustusThies,MohamedElgharib,AyushTewari,ChristianTheobalt,andMatthias Nießner. 2019. Neural Voice Puppetry: Audio-driven Facial Reenactment. arXiv preprint arXiv:1912.05566 (2019).
[24] RubenTolosana,RubenVera-Rodriguez,JulianFierrez,AythamiMorales,and Javier Ortega-Garcia. 2020. DeepFakes and Beyond: A Survey of Face Manipula- tion and Fake Detection. arXiv:2001.00179 [cs.CV]
[25] Eleanor Tursman, Marilyn George, Seny Kamara, and James Tompkin. 2020. Towards Untrusted Social Video Verification to Combat Deepfakes via Face Geometry Consistency. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.
[26] Konstantinos Vougioukas, Stavros Petridis, and Maja Pantic. 2019. Realistic speech-driven facial animation with gans. International Journal of Computer Vision (2019), 1–16.
[27] ZhouWang,AlanCBovik,HamidRSheikh,EeroPSimoncelli,etal.2004.Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing 13, 4 (2004), 600–612.
[28] HangZhou,YuLiu,ZiweiLiu,PingLuo,andXiaogangWang.2018.TalkingFace Generation by Adversarially Disentangled Audio-Visual Representation. arXiv preprint arXiv:1807.07860 (2018).