【AIGC】2024-arXiv-MuseTalk:实时高质量口型同步与潜在空间修复

MuseTalk:实时高质量口型同步与潜在空间修复

作者:Yue Zhang, Minhao Liu, Zhaokang Chen, Bin Wu, Yubin Zeng, Chao Zhan, Yingjie He, Junxin Huang, Wenjiang Zhou
单位:School of Computer Science and Engineering, State Key Laboratory of Software Development, Environment, Jiangxi Research Institute, Beihang University, School of Information and Communication Technology, Griffith University, RIKEN AIP, The University of Tokyo
论文地址https://arxiv.org/abs/2410.10122

摘要

 在人脸视觉配音中实现高分辨率、身份一致性和准确的口型同步是一项重大挑战,特别是对于像直播这样的实时应用而言。我们提出了 MuseTalk,它在由变分自编码器编码的潜在空间中生成口型同步目标,从而能够通过高效的推理生成高保真度的说话人脸视频。具体来说,我们将被遮挡的下半部分人脸图像和其本身作为参考投影到低维潜在空间中,并使用多尺度 U-Net 融合各个级别的音频和视觉特征。我们进一步提出了一种新颖的训练采样策略,该策略选择头部姿势与目标紧密匹配的参考图像,通过滤除冗余信息,使模型能够专注于精确的唇部运动。此外,我们分析了口型同步丢失的机制并揭示了其与输入信息量的关系。大量实验表明,MuseTalk 在视觉保真度方面始终优于近期最先进的方法,并实现了相当的口型同步准确度。由于 MuseTalk 支持以超过 30 FPS 的速度在线生成 256x256 的人脸,且启动延迟可忽略不计,因此它为实时应用程序铺平了道路。代码可在 https://github.com/TMElyralab/MuseTalk 上找到。

1. 引言

 近年来,从音频中生成逼真的说话脸部动画引起了广泛关注,其应用范围涵盖视觉配音、电影行业、数字助理等领域 (Kim et al., 2018; Pataranutaporn et al., 2021; Song et al., 2019; Gu et al., 2019)。说话脸部生成的主要目标是同步两种不同的模态——音频和视觉——以便嘴唇的运动与输入的语音内容保持一致,从而产生嘴唇同步的高保真视频。现有的说话脸生成方法根据其训练范式和数据要求大致可分为三类:特定人的说话脸 (Song et al., 2020; Lahiri et al., 2021; Guo et al., 2021)、单镜头说话脸 (Stypu kowski et al., 2024; Chen et al., 2024; Xu et al., 2024a;b) 和少镜头人脸视觉配音 (Cheng et al., 2022; Prajwal et al., 2020a; Zhong et al., 2023; Park et al., 2022; Wang et al., 2023)。对于特定人的说话脸方法,训练过程通常结合主体的特定身份。虽然这些方法可以生成高度逼真的说话人脸视频,但是由于需要针对每个新说话者进行重新训练或微调,这限制了它们在实际应用中的实用性。同时,随着 GAN 和视频合成扩散模型的快速发展,单镜头说话头部技术应运而生,该技术可以驱动单个参考面部图像产生同步的唇部运动、逼真的面部表情和自然的肖像动画。虽然这些方法可以生成生动的说话头部视频,但它们需要大量的训练数据、大量的计算资源和耗时的推理过程 (Guo et al., 2024),这使得它们不适合实时交互,例如数字人直播。因此,少镜头人脸视觉配音技术(专注于根据驱动音频重建源人脸的嘴部区域)在视频翻译、电影配音和虚拟数字人等实时交互等速度和效率至关重要的应用中引起了广泛关注。但事实上,由于人类对语音和面部动作之间的细微偏差特别敏感,高保真人脸视觉配音的关键标准是高分辨率、身份一致性和口语同步。然而,由于音频和视觉输入之间的相关性较弱,主要的挑战仍然是如何充分协调这两种异构模态。然后,从信息论的角度来看,核心问题是有效地最小化源的不确定性(熵),同时减轻噪声和无关信息的影响 (Lahat et al., 2015)。

 为了实现此目的,一些方法通常利用编码器-解码器结构来对齐音频和视觉表示。他们采用具有多个上采样层的卷积网络直接从潜在嵌入中合成嘴部区域像素 (Prajwal et al., 2020b; Xie et al., 2021; Cheng et al., 2022; Wang et al., 2023)。然而,在这种直接的融合机制中,信息筛选过程通常无法充分保留参考图像中的面部纹理细节。即使使用高分辨率训练数据,这也会导致纹理质量下降并导致模糊、身份不一致的视觉效果 (Zhang et al., 2023)。除了视觉质量之外,唇语同步是视觉配音的一个更重要的指标,因为它衡量输入音频和合成视频流之间的时间对应关系。解决该问题一个直接而有效的方法是在生成器末尾加入辅助预训练网络,例如口型同步鉴别器 (Prajwal et al., 2020b; Chung & Zisserman, 2017) 或口型同步损失 (Park et al., 2022) 来评估视听连贯性。这可以看作是互信息估计器 (Zhu et al., 2020) 的一种形式,但分析其互信息调控机制的研究有限,特别是关于它如何从冗余源信息中选择最相关的特征。因此,本文通过控制输入源的复杂性和信息量,以及实现有效的信息融合机制,解决了小镜头人脸视觉配音的三个关键挑战。我们还试图回答两个基本问题:(1)如何实现高分辨率和身份一致性的视觉内容? (2)如何获得嘴唇同步的嘴部运动?

 在本文中,我们介绍了 MuseTalk,这是一种采用口部修复技术的实时人脸视觉配音框架。MuseTalk 将人脸图像的下半部分被遮挡、同一个人的参考人脸和音轨作为输入,并输出一张嘴唇与音频无缝同步的人脸图像。具体来说,

  1. 为了生成高分辨率人脸图像(256×256),同时确保实时推理能力,我们引入了一种在潜在空间内生成口型同步目标的方法。该空间由预先训练的变分自动编码器(VAE)Kingma & Welling (2013) 编码,有助于保持我们框架的质量和速度。
  2. 在潜在空间中,我们为生成模型采用 U-Net 结构。该结构通过交叉注意将不同尺度的视觉和音频嵌入集成在一起。这种方法使 MuseTalk 能够有效地管理信息流,保留必要的视觉特征并增强同步。
  3. 我们观察到,在测试过程中,由于变化减少,遮挡面部的姿势越接近测试期间的参考面部,生成结果就越好。通常,遮挡面部和参考面部都来自同一帧,类似于 Cheng et al. (2022); Prajwal et al. (2020b) 的方法。然而,在训练过程中,他们采用了一种随机采样策略,在遮挡人脸和参考人脸之间引入了显著的姿势变化。为了弥补这一差距,我们提出了选择性信息采样(SIS),它选择头部姿势与目标紧密一致的参考图像,同时确保不同的唇部运动。这种策略使模型更加关注嘴部区域的复杂纹理。
  4. 我们还通过使用我们提出的自适应音频调制(AAM)策略深入研究了广泛使用的唇同步损失的机制,以了解其在提高唇同步准确性方面的作用。通过调节输入信息量,唇同步损失促进了模型从两种模态中提取更多相关信息的能力,从而优化了相互信息。

 我们进行了定性和定量实验来评估我们的 MuseTalk,实验结果表明,我们的方法在视觉质量和口型同步准确度方面明显优于现有技术,为音频驱动的视觉配音及其他领域的更高级应用铺平了道路。本文的其余部分组织如下:第 2 节介绍该领域的相关工作。第 3 节描述了 MuseTalk 的主要框架。第 4 节提供实验结果,第 5 节总结本文并讨论局限性和未来方向。

2. 相关工作

 现有的音频驱动的说话脸生成方法大致可分为三类:特定人物、单镜头说话头像和少镜头说话头像视觉配音方法。它们之间的关键区别在于,从参考视觉内容到生成照片般逼真的说话脸像动画,它们需要多少信息。

Person-specific talking face 方法在训练过程中结合目标特征,可以生成高保真、身份保留的结果。然而,这些方法通常依赖 3D 模型 (Song et al., 2020; Thies et al., 2020; Guo et al., 2021) 或神经辐射场(NeRF)(Park et al., 2022) 作为中间表示,并且需要几分钟的镜头来学习音频唇部映射,这使得它们非常耗时,并且限制了它们在现实世界中的适用性

One-shot talking head 方法最近引起了广泛关注,因为它们能够使用单个参考图像生成逼真的面部表情并管理头部运动动态。一种常见的方法是使用中间表示,例如面部标志或 3D 网格。例如,(Chen et al., 2019; Zhou et al., 2020) 提出了一种两阶段流水线,其中音频到标志模块后面是标志到视频的生成,从而有效地将说话者身份与语音内容区分开来。其他研究,例如 (Chen et al., 2020; Zhang et al., 2021a),利用 3D 系数根据音频预测的表情、姿势和几何形状来驱动面部运动。然而,这些方法通常难以处理牙齿和嘴巴纹理等细粒度细节,由于 3D 模型的控制粒度较粗,限制了生成的视频的整体保真度。随着视频生成扩散模型的最新进展,音频驱动的说话头部合成在单图像设置方面取得了进展。诸如 (Tian et al., 2024; Xu et al., 2024a; Chen et al., 2024; Wang et al., 2024; Xu et al., 2024b) 等作品展示了扩散模型如何生成由音频输入驱动的逼真的肖像视频。虽然扩散方法在增强生成多样性方面表现出色,但它们可能会引入不确定性和与身份相关的细节的丢失,从而导致诸如过度美化的面部或特定纹理丢失等伪像。此外,这些方法需要大量的训练数据、大量的计算资源和耗时的多步骤推理过程,这限制了它们在实时或资源受限的应用中的实用性

Few-shot face visual dubbing 侧重于根据驱动音频替换源人脸的嘴部区域。最常见的方法是采用编码器-解码器架构。例如,(Prajwal et al., 2020a; Park et al., 2022; Xie et al., 2021; Cheng et al., 2022) 等研究采用单独的图像和音频编码器来提取特征,然后使用单个解码器将这些特征融合,以直接在源人脸上生成嘴部区域像素。虽然这些方法可以实现与语音内容很好地对应的唇部运动,但简单的融合机制往往无法保留参考图像中的面部纹理细节。这会导致纹理保真度损失并产生模糊、身份不一致的视觉输出,即使在高分辨率数据上进行训练也是如此 (Zhang et al., 2023)。为了解决这些限制,(Zhang et al., 2023) 提出了一种变形修复网络,其中变形操作将像素移动到正确位置,从而保留高频纹理细节。然而,由于参考图像中的冗余信息,这种方法仍然会引入局部模糊,并限制自然的唇部运动。此外,修复模块容易过度拟合,导致在应用于未见过的图像时出现明显的颜色差异

方法

 在本节中,我们将介绍 MuseTalk 框架的细节,如图 1 所示。首先,我们概述了网络架构,涵盖了 MuseTalk 的输入、输出和关键组件。接下来,我们从信息调制的角度深入研究辅助训练策略,特别是选择性信息采样(SIS)和自适应音频调制(AAM)方法。最后,我们概述了 MuseTalk 训练和测试阶段的实施细节。

3.1 框架

图 1

图 1:我们的 MuseTalk 框架说明。我们首先将参考面部图像和被遮挡的下半部分目标图像编码到感知等效的潜在空间中。随后,我们采用多尺度学习网络结构有效地融合不同尺度的音频和视觉特征,从而促进两种模态的更全面整合。因此,从潜在空间解码的结果会产生更逼真和口型同步的说话面部视觉内容。

 MuseTalk 是一个创新框架,专为多尺度模态对齐而设计,专注于音频和视觉元素的同步。我们的网络结构受到潜在扩散模型(LDM)(Rombach et al., 2022) 的启发,该模型采用预训练自动编码器(VQ-VAE(Van Den Oord et al., 2017) 将图像从像素空间映射到潜在空间,在潜在空间中执行扩散过程。训练目标公式为 L = E z t ,   c ,   ε ∼ N ( 0 ,   1 ) ,   t [ ∥ ϵ − ϵ θ ( z t ,   t ,   c ) ∥ 2 2 ] L=\mathbb{E}_{z_t,\ c,\ \varepsilon\sim\mathcal{N}\left(0,\ 1\right),\ t}\left [\left \|\epsilon-\epsilon_\theta\left(z_t,\ t,\ c\right)\right\|^2_2\right] L=Ezt, c, εN(0, 1), t[ϵϵθ(zt, t, c)22],其中 ϵ θ \epsilon_\theta ϵθ 表示主干去噪网络,包括几个与条件相关的交叉注意模块。如 (Rombach et al., 2022) 所示,在潜在空间中操作可促进局部真实感并避免通常由像素空间损失(例如 L 2 L_2 L2 L 1 L_1 L1 目标)引起的模糊。在此基础上,我们采用了与稳定扩散类似的机制,稳定扩散是一种基于 LDM 的文本到图像扩散模型。虽然扩散机制通过注入噪声连接条件域和目标域来增强多样性,但它也为生成的输出带来了更大的不确定性。对于说话人脸生成,身份一致性和唇部同步至关重要,因此必须在融合特征和最终结果之间建立更直接的关联。因此,我们进行了以下调整:(1)我们绕过复杂且耗时的扩散过程,直接导出最终结果;(2)我们使用目标图像被遮挡的下半部分以及参考面部图像,而不是单个输入图像,而驱动条件是音频嵌入序列

 如图 1 所示,目标图像 I s t I_s^t Ist 的被遮挡的下半部分和时间 t t t 的参考身份图像 I t I_t It 分别通过预先训练的 VAE 编码器。然后将得到的输出 v r e f w × h × c v^{w\times h\times c}_{ref} vrefw×h×c v m w × h × c v^{w\times h\times c}_{m} vmw×h×c 沿通道维度连接起来,以创建全面的图像 m m m 特征表示 v w × h × 2 c v^{w\times h\times 2c} vw×h×2c,其中 w w w h h h 表示特征的宽度和高度。对于音频数据,我们利用预先训练的 Whisper (Radford et al., 2023) 编码器从序列音频片段中提取特征。音频片段的长度设置为 T T T,以时间 t t t 为中心。首先将该片段重新采样为 16,000 Hz,然后转换为 80 通道对数幅度梅尔频谱图,作为输入 A t d ∈ R T × 80 A_t^d\in \mathbb{R}^{T\times 80} AtdRT×80。输出音频特征形状为 a T × d a^{T\times d} aT×d,其中 d d d 表示音频特征的维度。 T T T 值的选择对于捕捉口语内容的时间动态至关重要,这将在第 3.3 节中进行评估,特别是在调节输入信息量时。

 然后,众所周知,生成逼真的说话脸的关键在于音频和视觉两种异构模态的对齐。仅使用多个上采样卷积层直接生成嘴形像素的传统方法无法创建高质量的口型同步视频。为了解决这个问题,我们从 U-Net 结构 (Ronneberger et al., 2015) 的成功中汲取灵感,该结构在最近的多模态生成任务 (Rombach et al., 2021) 中得到广泛认可。U-Net 的多尺度学习网络架构巧妙地融合了不同尺度的音频和视觉特征,能够对形式为 p ( v ^ ∣ a ) p\left(\hat{v}|a\right) p(v^a) 的条件分布进行建模,从而实现两种模态的更细致入微和更全面的整合

 最终,融合的特征 v ^ w × h × c \hat{v}^{w\times h\times c} v^w×h×c 被输入到预先训练的 VAE 解码器中以生成最终结果。这一精细的过程确保生成的视频不仅与音轨完美对齐,而且还保持了最先进的音频视觉同步系统所期望的视觉连贯性和质量。

音频编码器。准确的口型同步说话脸部生成在很大程度上依赖于强大的音频嵌入。在我们的方法中,我们利用 Whisper (Radford et al., 2023) 作为我们的音频编码器,这是一种多功能、通用的语音识别模型,因为它在多语言和多任务场景中被证明是有效的。我们特别使用编码器部分,它通过两个具有 GELU 激活的卷积层处理输入,添加正弦位置嵌入,并应用具有预激活残差的 Transformer 块,然后进行最后的层归一化。

损失函数。如图 1 所示,合成的说话脸部图像 I o t I_o^t Iot 和给定的地面实况图像 I g t t I_{gt}^t Igtt,应用三个损失函数来提高视频生成质量,包括重建损失、感知损失 (Johnson et al., 2016)、GAN 损失 (Mao et al., 2017) 和口型同步损失 (Prajwal et al., 2020b)。我们使用 L1 损失进行重建,以最小化像素差异,确保生成图像和目标图像之间的颜色和结构一致性。然而,它经常会遗漏精细的纹理。另一方面,感知损失通过比较高级特征来强调感知相似性,增强细节和视觉真实感。为了平衡两者,我们将 L1 和感知损失结合起来,以实现全局一致性和精细细节保留,如等式 (1) 和 (2) 所示。此外,GAN 损失(见等式 (5))鼓励模型通过挑战鉴别器来学习细微的细节。L1、感知和 GAN 损失共同提升了生成图像的保真度、真实感和感知质量。

公式 1, 2

 其中 V \mathcal{V} V 表示 VGG19 的特征提取器 (Simonyan & Zisserman, 2015)。

公式 3, 4, 5

 在等式 (3) 和 (4) 中, L D \mathcal{L}_D LD 优化了鉴别器 D D D,以区分合成人脸图像 I o t I_o^t Iot 和地面真实图像 I g t t I_{gt}^t Igtt,而 L G \mathcal{L}_G LG 提高了结果质量以欺骗鉴别器。此外,与 (Prajwal et al., 2020a; Cheng et al., 2022; Zhang et al., 2023) 类似,我们添加了唇形同步损失以提高配音视频中唇部运动的同步性。我们还在第 3.3 节中分析了唇形同步损失的机制并揭示了其与输入信息量的关系。唇形同步损失定义在等式 (6) 中,其中我们重新训练的 SyncNet (Prajwal et al., 2020a) 以 N N N 对音频和图像帧作为输入。然后使用输出特征计算与 P s y n c P_{sync} Psync 的余弦相似度。

公式 6

 最后,我们将以上损失加权总和作为最终损失 L \mathcal{L} L,写为公式 (7),其中我们在实验中设置 λ = 0.01 ,   μ = 0.01 \lambda=0.01,\ \mu=0.01 λ=0.01, μ=0.01 φ = 0.03 \varphi=0.03 φ=0.03

公式 7

3.2 选择性信息抽样(SIS)

图 2

图 2:我们提出的信息调制机制的说明,包括 (a) 选择性信息采样(SIS)和 (b) 自适应音频调制(AAM)。

为了实现高分辨率和身份一致的视觉结果,保留相关的纹理细节并滤除冗余信息至关重要。为了解决这个问题,我们提出了一种选择性信息采样(SIS)策略,该策略选择头部姿势与目标紧密对齐的参考图像,同时确保唇部运动清晰,如图 2(a) 所示。

 首先,我们使用下巴标志之间的欧几里得距离计算视频中每帧的头部姿势相似度,将 t o p − k top-k topk 个相似的帧确定为姿势对齐图像集 E p o s e \mathcal{E}_{pose} Epose。接下来,我们根据内唇标志计算欧几里得差异,并确定唇部运动最明显的 t o p − k top-k topk 个帧,形成唇部运动差异图像集 E m o u t h \mathcal{E}_{mouth} Emouth。最后,我们选择两个集合的交集 E p o s e ∩ E m o u t h \mathcal{E}_{pose}\cap \mathcal{E}_{mouth} EposeEmouth 作为每个训练样本的最终选择性参考图像集 E \mathcal{E} E。与以前从视频序列中随机选择参考图像的方法不同,我们的方法确保删除不相关和冗余的信息,从而使模型更好地关注嘴部区域的细节纹理

3.3 自适应音频调制(AAM)

 驱动音频是影响唇部运动模式的关键因素,因此两种模态(音频和视觉)中的信息必须完整且高度连贯,捕捉发音和音调等线索。传统方法是在训练之前手动同步音频和视频。例如,(Wang et al., 2023) 使用以姿势参考为中心的 0.2 秒音频片段作为输入。然而,由于两种模态之间的采样率不同,实现精确同步具有挑战性。虽然我们的多尺度融合架构在一定程度上解决了这个问题,但并没有完全解决它。

 基于先前的研究,我们发现加入唇形同步损失 (Prajwal et al., 2020a; Cheng et al., 2022; Zhang et al., 2023) 可显着增强唇形同步。然而,我们试图了解其潜在的机制。通过实验,我们发现口型同步损失充当了信息调制器的角色,可以调节输入数据并使模型从两种模态中提取更多相关信息,从而优化互信息。如图 2(b) 所示,我们假设与目标唇部运动相对应的同步音频输入中包含的信息遵循正态分布。与唇型同步相关的信息集中在中间范围,而其他信息可能涉及更精细的细节,例如发音习惯和时间关系。为了评估生成结果的质量,我们改变输入音频片段的长度( T = 1 ,   3 ,   5 ,   7 T=1,\ 3,\ 5,\ 7 T=1, 3, 5, 7)来控制信息量。这不仅增强了唇语同步,而且还提高了图像质量(见表 4 中的 Frechet 初始距离(FID))。

4. 实验

 在本节中,我们将描述实验的数据集和实施细节。我们首先通过使用相关指标将我们的方法的性能与最先进的方法进行比较,进行定量评估。接下来,我们展示定性结果,以突出我们合成输出的视觉保真度。最后,我们进行消融研究,以评估我们框架的不同组件对其整体性能的贡献。

4.1 实验设置

实施细节。MuseTalk 的训练过程在 2 个 NVIDIA H20 GPU 上进行。Unet 模型最初使用 L1 损失和感知损失进行 200,000 步训练,大约需要 60 小时。随后,Unet 使用口型同步损失和 GAN 损失进行额外的 100,000 步训练,大约需要 30 小时。我们分别使用 whisper-tiny 模型1和 sd-vae-ft-mse2作为音频和图像特征提取器。至于图像预处理,我们将每张图像上的脸部检测为感兴趣区域(ROI),然后裁剪并将 ROI 调整为 256 × 256 256\times 256 256×256。SIS 中的 k k k 值设置为视频长度的 40% 帧。

1 https://github.com/openai/whisper
2 https://huggingface.co/stabilityai/sd-vae-ft-mse

数据集准备。我们在实验中使用了两个广为认可的高分辨率说话人脸数据集:HDTF (Zhang et al., 2021b) 和 MEAD (Wang et al., 2020)。HDTF 数据集包含大约 410 个 720P 或 1080P 分辨率的野外视频。我们随机选择 20 个视频进行测试,并使用剩余的视频进行训练。所有视频都被剪辑为 30 秒的片段,用于训练和测试阶段。我们汇编了 1836 个具有中性表情和正面视图的视频,以创建 MEAD-Neutral 数据集,符合 (Zhang et al., 2023) 中的方法。从这个数据集中,我们随机选择了 6 个身份的 240 个视频进行测试。在测试阶段,我们采用一种反映真实世界使用的协议,其中视频和音频来自不同的来源,参考图像取自当前帧。这与 Wav2Lip (Prajwal et al., 2020b) 和 VideoRetalking (Cheng et al., 2022) 使用的非配对评估协议一致,从而确保了公平的比较。

评估指标。实验旨在评估该方法的视觉保真度、身份保存和唇形同步能力。Frechet Inception Distance(FID)(Heusel et al., 2017) 用于视觉质量评估。我们之所以选择 FID,是因为这项任务缺乏像素级的真实情况;输入的嘴部区域被改变,使得像素级指标(如 PSNR、SSIM 和 LPIPS)不太合适。FID 测量生成的图像与真实图像分布之间的相似性,在没有真实说话视频的情况下为视觉保真度提供可靠的指标。身份保存是通过计算源图像和生成图像的身份嵌入之间的余弦相似度(CSIM)来衡量的。唇形同步使用唇形同步误差置信度(LSE-C)(Prajwal et al., 2020b) 来评估。

比较基线。所提出的方法与几种最先进的实时视频配音技术进行了对比:1)Wav2Lip (Prajwal et al., 2020b),该方法利用强大的预训练唇形同步鉴别器在视频中生成逼真的唇形同步而闻名;2)VideoRetalking (Cheng et al., 2022),通过表情中和、唇形同步生成和身份感知增强的过程,为说话头部视频编辑提供高质量的音频驱动唇形同步;3)DI-Net (Zhang et al., 2023),该方法采用双编码器框架结合面部动作单元系统,以创建照片般逼真、情感一致的说话面部视频而闻名; 4)TalkLip (Wang et al., 2023),引入了一种创新的对比学习方法来改善唇语同步,并利用变压器对与视频同步的音频进行编码,同时考虑到音频的全局时间依赖性。

4.2 定量评估

 表 1 展示了我们对 HDTF 和 MEAD-Neutral 数据集的定量分析结果。MuseTalk 的表现优于竞争对手,在 FID 和 CSIM 中取得了最高分,在 LSE-C 中也取得了可比的结果。至于视觉质量,Wav2Lip、VideoRetalking 和 TalkLip 都是在 96 × 96 96\times 96 96×96 像素的调整大小的面部区域上进行训练的,清晰度较低,这从较低的 FID 分数可以看出。即使使用 DI-Net 复制,直接训练高分辨率 Wav2Lip(Wav2Lip-192)也无法提高清晰度,结果比 Wav2Lip-96 更差。另一方面,DI-Net 在 HDTF 数据集中获得了第二好的 FID 和 CSIM 分数,因为它利用了一种基于变形的方法来保留高频纹理细节,清晰度极佳。然而,其随机抽样参考图像列表的方法为模型引入了冗余信息,严重限制了自然的唇部运动,因此牺牲了一些口型同步准确性,如 LSE-C 分数所示。此外,DI-Net 模型在 MEAD 数据集上的表现不尽人意,生成的结果表现出明显的颜色差异,这可能是由于其修复模块过度拟合 HDTF 数据集。相比之下,MuseTalk 结合我们提出的 SIS 参考图像采样方法和多尺度数据融合结构,在 HDTF 和 MEAD-Neutral 数据集的 FID 和 CSIM 分数上均优于其他基线方法至于视听同步,我们的方法在 LSE-C 分数上的表现不及 TalkLip 和 DI-Net,但仅略低于 Wav2Lip 和 VideoRetalking。我们将其归因于唇型同步损失优化的 AAM 策略,它增强了音频和视觉相关性之间的相互信息。然而,由于 Wav2Lip 和 VideoRetalking 是专门为直接优化 LSE-C 指标而设计的,因此它们虽然得分较高,但代价是牺牲了视觉质量。总体而言,我们的方法优先考虑视觉质量和面部保留,旨在实现所有指标的最佳性能。

表 1

表 1:HTDF 和 MEAD-Neutral 的性能指标。最佳结果以粗体显示,次佳结果以下划线字体突出显示。IMP 显示了 MuseTalk 相对于最佳模型的改进。

4.3 定性评估

 为了便于直接对评估方法进行视觉比较,图 3 中包含了几个说明性示例。经检查,很明显,诸如 Wav2Lip 和 TalkLip 之类的方法通常会产生模糊的合成嘴部区域。VideoRetalking 会导致唇部周围出现锯齿状伪影,并过度平滑面部区域。特别是 DI-Net,虽然保持了更好的面部清晰度,但在生成的结果中会引起主体身份的明显变化。然而,我们提出的方法在视觉质量和身份一致性方面均表现出色,脱颖而出。从图 3 的最后一行可以清楚地看出,我们的方法与原始图像无缝集成,没有留下任何可见的痕迹。补充材料中提供了其他视频结果和全面的用户研究评估。

图 3

图 3:这里展示了 HDTF 数据集与最先进方法的定性比较(放大可查看更精细的细节)。上面两行显示了输入视频帧与相应的编辑音频的配对,其中面部的唇形用于直观地表示输入音频。

4.4 消融研究

 为了评估 MuseTalk 中使用的每个主要组件的影响,我们对 HDTF 数据集进行了全面的消融研究实验。

选择性信息采样。我们分析了不同采样方法的影响。如表 2 所示,以前在研究中使用的随机采样方法,例如 (Zhang et al., 2023; Cheng et al., 2022; Prajwal et al., 2020b),会导致图像质量较低,反映在较高的 FID 分数中。相比之下,我们提出了两种替代采样方法:不同嘴部采样和姿势对齐采样,以​​证明我们的选择性信息采样(SIS)策略在过滤冗余信息方面的有效性。不同嘴部采样强调捕捉详细的嘴唇动作,提高了嘴唇同步得分(LSE-C),但损害了视觉保真度。另一方面,姿势对齐采样专注于匹配头部姿势,以最低的 FID 和最高的 CSIM 分数实现最高的图像质量。然而,这种方法牺牲了唇形同步的准确性,因为模型会重现更多的参考信息而不是生成真实的唇部动作,从而导致信息泄露问题。我们的选择性信息采样方法通过将头部姿势与目标对齐,同时保留不同的唇部动作来达到平衡。这种双重关注使模型能够捕捉复杂的嘴部细节,从而在所有指标上实现卓越的性能,平衡图像质量和唇形同步准确性

多尺度融合。利用 UNet 架构中的多尺度数据融合机制,MuseTalk 实现了有效的视听集成,以实现视觉配音。如表 3 所示,浅层特征融合被证明是不够的,特别是在增强唇部同步(LSE-C)方面。相比之下,完整的多尺度融合显著提高了视听连贯性和图像质量,强调了其在实现高质量结果方面的重要性

自适应音频调制。如表 4 所示,添加 L s y n c \mathcal{L}_{sync} Lsync 可显著提高不同音频片段长度的三个评估指标(FID、CSIM、LSE-C)的平均水平。这表明 L s y n c \mathcal{L}_{sync} Lsync 有助于模型从两种模态中提取更多相关信息,从而优化它们的相互信息。此外,输入信息量尚未得到彻底评估。我们使用 T \rm T T 表示每个视频帧的音频片段数, T = 1 \rm T=1 T=1 对应 25 FPS 的 40 毫秒。结果表明,如果没有 L s y n c \mathcal{L}_{sync} Lsync,较长的音频片段( T = 1 ,   3 ,   5 \rm T=1,\ 3,\ 5 T=1, 3, 5)对 LSE-C 的影响很小。相反,加入 L s y n c \mathcal{L}_{sync} Lsync 会随着 T T T 的增长而增加 LSE-C,在 T = 5 \rm T=5 T=5 时达到峰值 6.53,这表明 L s y n c \mathcal{L}_{sync} Lsync 能够从更大的输入量中调制相关信息。然而,当 T > 5 \rm T>5 T>5 时,LSE-C 急剧下降(如表 4 中的红色值所示),可能是因为不相关信息主导了输入,产生了干扰 L s y n c \mathcal{L}_{sync} Lsync 有效性的噪音

 此外,我们还发现了之前工作 (Prajwal et al., 2020a) 中 SyncNet 训练的一个问题。如表 4 最后一行所示,虽然它实现了更高的 LSE-C 值,但它显著影响了清晰度(FID 和 CSIM)。我们认为 SyncNet 的对比学习策略可能正在捕获冗余信息,例如面部图像中的用户身份与音频特征之间的相关性。这会对模型从参考图像中提取纹理信息的能力产生负面影响。为了解决这个问题,我们改进了训练策略,从一批中仅从一个个体中采样以创建正样本和负样本。这种改进的 SyncNet 训练方法可以同时增强清晰度和视听一致性

5. 结论

我们提出了 MuseTalk,这是一个突破性的框架,旨在解决生成高质量实时说话面孔的重大挑战。受稳定扩散的启发,我们绕过耗时的扩散过程,直接对音频和视觉数据之间的相关性进行建模,利用变分自动编码器 (VAE) 和 Whisper 模型的新组合进行特征提取,同时使用 U-Net 架构在潜在空间中生成目标。这种创新方法不仅确保了高分辨率和身份一致性,而且还实现了精确的口语同步。具体来说,MuseTalk 通过 U-Net 中的多尺度特征融合将音频特征和潜在视觉表示集成在一起,通过提出的 SIS 和 AAM 策略优化输出结果。在 HDTF 和 MEAD-Neutral 数据集上进行的实验表明,与现有的最先进方法相比,MuseTalk 具有更优越的性能,凸显了其在数字通信和多媒体领域树立新标准的潜力。此外,MuseTalk 在 NVIDIA Tesla V100 上可以实现每秒 30 帧的生成速度,证明了其在实时应用方面的能力

参考文献

  1. Lele Chen, Ross K. Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2019. doi: 10.1109/cvpr.2019.00802. URL http://dx. doi.org/10.1109/cvpr.2019.00802.
  2. Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. In European Conference on Computer Vision, pp. 35–51. Springer, 2020.
  3. Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, and Chenguang Ma. Echomimic: Life- like audio-driven portrait animations through editable landmark conditions. arXiv preprint arXiv:2407.08136, 2024.
  4. Kun Cheng, Xiaodong Cun, Yong Zhang, Menghan Xia, Fei Yin, Mingrui Zhu, Xuan Wang, Jue Wang, and Nannan Wang. Videoretalking: Audio-based lip synchronization for talking head video editing in the wild. In SIGGRAPH Asia 2022 Conference Papers, pp. 1–9, 2022.
  5. Joon Son Chung and Andrew Zisserman. Out of time: automated lip sync in the wild. In Computer Vision–ACCV 2016 Workshops: ACCV 2016 International Workshops, Taipei, Taiwan, November 20-24, 2016, Revised Selected Papers, Part II 13, pp. 251–263. Springer, 2017.
  6. Kuangxiao Gu, Yuqian Zhou, and Tsung-Wei Huang. Flnet: Landmark driven fetching and learn- ing network for faithful talking facial animation synthesis. Cornell University - arXiv,Cornell University - arXiv, Nov 2019.
  7. Jianzhu Guo, Dingyun Zhang, Xiaoqiang Liu, Zhizhou Zhong, Yuan Zhang, Pengfei Wan, and Di Zhang. Liveportrait: Efficient portrait animation with stitching and retargeting control. arXiv preprint arXiv:2407.03168, 2024.
  8. Yudong Guo, Keyu Chen, Sen Liang, Yong-Jin Liu, Hujun Bao, and Juyong Zhang. Ad-nerf: Au- dio driven neural radiance fields for talking head synthesis. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Oct 2021. doi: 10.1109/iccv48922.2021.00573. URL http://dx.doi.org/10.1109/iccv48922.2021.00573.
  9. Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
  10. Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part II 14, pp. 694–711. Springer, 2016.
  11. Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Niessner, Patrick Pe ́rez, Christian Richardt, Michael Zollho ̈fer, and Christian Theobalt. Deep video por- traits. ACM Transactions on Graphics, pp. 1–14, Aug 2018. doi: 10.1145/3197517.3201283. URL http://dx.doi.org/10.1145/3197517.3201283.
  12. Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  13. Dana Lahat, Tu ̈lay Adali, and Christian Jutten. Multimodal data fusion: an overview of methods, challenges, and prospects. Proceedings of the IEEE, 103(9):1449–1477, 2015.
  14. Avisek Lahiri, Vivek Kwatra, Christian Frueh, John Lewis, and Chris Bregler. Lipsync3d: Data- efficient learning of personalized 3d talking faces from video using pose and lighting normal- ization. In 2021 IEEE/CVF Conference on Computer Vision and Pattern
  15. Recognition (CVPR), Jun 2021. doi: 10.1109/cvpr46437.2021.00278. URL http://dx.doi.org/10.1109/ cvpr46437.2021.00278.
  16. Xudong Mao, Qing Li, Haoran Xie, Raymond Y.K. Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks. In 2017 IEEE International Conference on Com- puter Vision (ICCV), Oct 2017. doi: 10.1109/iccv.2017.304. URL http://dx.doi.org/ 10.1109/iccv.2017.304.
  17. Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, and Yong Man Ro. Synctalkface: Talk- ing face generation with precise lip-syncing via audio-lip memory. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pp. 2062–2070, 2022.
  18. Pat Pataranutaporn, Valdemar Danry, Joanne Leong, Parinya Punpongsanon, Dan Novy, Pattie Maes, and Misha Sra. Ai-generated characters for supporting personalized learning and well-being. Nature Machine Intelligence, pp. 1013–1022, Dec 2021. doi: 10.1038/s42256-021-00417-9. URL http://dx.doi.org/10.1038/s42256-021-00417-9.
  19. K R Prajwal, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, and C.V. Jawahar. A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM International Conference on Multimedia, Oct 2020a. doi: 10.1145/3394171.3413532. URL http://dx. doi.org/10.1145/3394171.3413532.
  20. KR Prajwal, Rudrabha Mukhopadhyay, Vinay P Namboodiri, and CV Jawahar. A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM international conference on multimedia, pp. 484–492, 2020b.
  21. Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever. Robust speech recognition via large-scale weak supervision. In International Conference on Ma- chine Learning, pp. 28492–28518. PMLR, 2023.
  22. Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjo ̈rn Ommer. High- resolution image synthesis with latent diffusion models, 2021.
  23. Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjo ̈rn Ommer. High- resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF confer- ence on computer vision and pattern recognition, pp. 10684–10695, 2022.
  24. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomed- ical image segmentation. In Medical image computing and computer-assisted intervention– MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceed- ings, part III 18, pp. 234–241. Springer, 2015.
  25. Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. International Conference on Learning Representations,International Conference on Learning Representations, Jan 2015.
  26. Lixia Song, Wayne Wu, Chen Qian, Ran He, and ChenChange Loy. Everybody’s talkin’: Let me talk as you want. Cornell University - arXiv,Cornell University - arXiv, Jan 2020.
  27. Yang Song, Jingwen Zhu, Dawei Li, Andy Wang, and Hairong Qi. Talking face generation by conditional recurrent adversarial network. In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, Aug 2019. doi: 10.24963/ijcai.2019/129. URL http: //dx.doi.org/10.24963/ijcai.2019/129.
  28. Micha Stypu kowski, Konstantinos Vougioukas, Sen He, Maciej Ziba, Stavros Petridis, and Maja Pantic. Diffused heads: Diffusion models beat gans on talking-face generation. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp. 5091–5100, 2024.
  29. Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nießner. Neural voice puppetry: Audio-driven facial reenactment. In Computer Vision–ECCV 2020: 16th Euro- pean Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVI 16, pp. 716–731. Springer, 2020.
  30. Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo. Emo: Emote portrait alive-generating ex- pressive portrait videos with audio2video diffusion model under weak conditions. arXiv preprint arXiv:2402.17485, 2024.
  31. Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.
  32. Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, and Wei Yang. V-express: Conditional dropout for progressive training of portrait video generation. arXiv preprint arXiv:2406.02511, 2024.
  33. Jiadong Wang, Xinyuan Qian, Malu Zhang, Robby T Tan, and Haizhou Li. Seeing what you said: Talking face generation guided by a lip reading expert. In Proceedings of the IEEE/CVF Confer- ence on Computer Vision and Pattern Recognition, pp. 14653–14662, 2023.
  34. Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, and Chen Change Loy. Mead: A large-scale audio-visual dataset for emotional talking- face generation. In European Conference on Computer Vision, pp. 700–717. Springer, 2020.
  35. Tianyi Xie, Liucheng Liao, Cheng Bi, Benlai Tang, Xiang Yin, Jianfei Yang, Mingjie Wang, Jiali Yao, Yang Zhang, and Zejun Ma. Towards realistic visual dubbing with heterogeneous sources. In Proceedings of the 29th ACM International Conference on Multimedia, pp. 1739–1747, 2021.
  36. Mingwang Xu, Hui Li, Qingkun Su, Hanlin Shang, Liwei Zhang, Ce Liu, Jingdong Wang, Luc Van Gool, Yao Yao, and Siyu Zhu. Hallo: Hierarchical audio-driven visual synthesis for portrait image animation. arXiv preprint arXiv:2406.08801, 2024a.
  37. Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, and Baining Guo. Vasa-1: Lifelike audio-driven talking faces generated in real time. arXiv preprint arXiv:2404.10667, 2024b.
  38. Zhimeng Zhang, Lincheng Li, Yu Ding, and Changjie Fan. Flow-guided one-shot talking face gen- eration with a high-resolution audio-visual dataset. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2021a. doi: 10.1109/cvpr46437.2021.00366. URL http://dx.doi.org/10.1109/cvpr46437.2021.00366.
  39. Zhimeng Zhang, Lincheng Li, Yu Ding, and Changjie Fan. Flow-guided one-shot talking face gen- eration with a high-resolution audio-visual dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3661–3670, 2021b.
  40. Zhimeng Zhang, Zhipeng Hu, Wenjin Deng, Changjie Fan, Tangjie Lv, and Yu Ding. Dinet: De- formation inpainting network for realistic face visually dubbing on high resolution video. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 37, pp. 3543–3551, 2023.
  41. Weizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao, Liang Lin, and Guanbin Li. Identity-preserving talking face generation with landmark and appearance priors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9729–9738, 2023.
  42. Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk. ACM Transactions on Graphics, pp. 1–15, Dec 2020. doi: 10.1145/3414685. 3417774. URL http://dx.doi.org/10.1145/3414685.3417774.
  43. Hao Zhu, Huaibo Huang, Yi Li, Aihua Zheng, and Ran He. Arbitrary talking face generation via attentional audio-visual coherence learning. In Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, Jul 2020. doi: 10.24963/ijcai.2020/327. URL http: //dx.doi.org/10.24963/ijcai.2020/327.

A 附录

 本附录提供了由于篇幅限制而无法包含在主稿中的附加信息。首先,我们展示了进一步的实验结果,包括精心设计的用户研究和附加可视化。其次,我们讨论了 MuseTalk 的局限性并概述了未来的潜在研究方向。

A.1 用户研究

 评估口型同步的质量依赖于人的判断。进行了一项用户研究,以进一步评估我们提出的方法的性能。在这项研究中,我们使用来自 HDTF 数据集的 55 个不同步的音频视频对,通过不同的方法创建了说话的头部视频。要求十名参与者根据视觉质量和口型同步准确度对每个视频进行评分。他们获得了一个五分量表(1 为最低,5 为最高)来进行评估。共收集了 550 个评分。如表 5 所示,大多数参与者在视觉质量、口型同步质量和身份一致性方面对我们的方法给出了更高的分数。图 4 显示了更多可视化效果。

表 5

表 5:用户研究。最佳结果以粗体显示,次佳结果以下划线字体突出显示。IMP 显示了 MuseTalk 相对于最佳模型的改进。

A.2 局限性和未来工作

 虽然与其他最先进的方法相比,MuseTalk 在面部区域分辨率(256x256)方面表现出了显著的改进,但它尚未发挥其全部分辨率潜力。此外,某些面部细节(如胡须、唇形和颜色)并不总是能得到很好的保存,这可能会影响身份一致性。最后,由于单帧生成过程,偶尔会出现抖动,从而影响平滑度。

 为了解决这些限制,未来的工作将侧重于整合更高质量的训练数据和集成时间模块以减少抖动并确保更平滑的过渡。这些增强功能旨在提高分辨率和整体视觉一致性。此外,将 GFPGAN 等超分辨率模型作为后处理步骤可以进一步提高实际应用中的输出质量。

图 4

图 4:这里展示了 HDTF 数据集与最先进方法的定性比较(放大可查看更精细的细节)。上面两行显示了输入视频帧与相应的编辑音频的配对,其中面部的唇形用于直观地表示输入音频。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值