AI数字人的秘密武器：Wav2Lip语音驱动人脸模型

最新推荐文章于 2024-04-02 15:19:36 发布

无忧秘书智脑

最新推荐文章于 2024-04-02 15:19:36 发布

阅读量1.1k

点赞数 16

文章标签：人工智能

本文链接：https://blog.csdn.net/kula256/article/details/136030353

版权

Wav2Lip深度解析

2020年，印度海德拉巴大学和英国巴斯大学的研究团队在ACM MM2020会议上发表了一篇名为《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》的论文，介绍了名为Wav2Lip的AI模型。该模型通过输入人物视频和目标语音，实现了音频与视频的完美结合，使人物的嘴型与音频完全匹配。

尽管在深度学习技术出现之前，已经有一些方法可以实现角色嘴唇形状与实际语音信号的匹配，但Wav2Lip在目前的技术中具有显著优势。现有的方法主要是基于静态图像来输出与目标语音匹配的唇形同步视频，但在处理动态讲话人物时，效果往往不尽人意。而Wav2Lip则能够直接将动态视频进行唇形转换，输出与目标语音相匹配的视频结果。

Wav2Lip模型结构

Wav2Lip模型是一个具有深度学习理念的两阶段系统。

在第一阶段，该模型训练了一个能够准确辨别声音与嘴型之间是否同步的判别器，强化了模型的判别能力。

在第二阶段，Wav2Lip采用了编码-解码的模型结构，即一个生成器与两个判别器的组合。这种架构使得模型在学习过程中能够更好地平衡生成器与判别器之间的竞争关系，从而提高生成效果。此外，该模型还可采用基于GAN的训练方式。虽然这在一定程度上会影响同步性，但整体的视觉效果会更加出色。这种权衡表明，在实际应用中，我们需要根据具体需求来选择合适的训练策略。

在模型训练过程中，作者创新性地引入了两个评估指标：Lip-Sync Error-Distance（越低越好）和Lip-Sync Error-Confidence（越高越好），以量化视频中的唇语同步精度。研究结果显示，通过Wav2Lip生成的视频在同步效果上几乎可与真实视频相媲美。

然而，值得注意的是，该模型仅在LRS2的训练集上进行了训练。若要在其他数据集上进行训练，需对代码进行适当修改。以下为生成效果示例：

在本研究中，我们探索了语音驱动任意人脸唇部运动的方法，实现了语音与说话运动的同步。现有的技术在生成特定人物静态图像或视频上的准确嘴唇运动方面表现良好，但在处理动态、无约束的说话面部视频中任意身份的嘴唇运动时，效果并不理想。为了解决这个问题，我们分析了相关原因，并通过训练强大的口型同步鉴别器来解决这些问题。此外，我们还提出了新的、严格的评估基准和指标，以准确测量无约束视频中的唇同步。广泛的定量评估表明，我们的 Wav2Lip 模型生成的视频的口型同步精度几乎与真实同步视频一样好。

随着视听内容消费的指数级增长，快速视频内容创作已成为一种基本需求。与此同时，将这些视频翻译成不同语言也是一个关键挑战。例如，深度学习系列讲座、著名电影或公开演讲，如果翻译成所需的目标语言，就可以供数百万新观众观看。翻译此类会说话的面部视频的一个关键方面是校正唇形以同步匹配所需的目标语音。因此，对人脸视频进行口型同步以匹配给定的输入音频流已经在研究界受到了相当多的关注。

在这个领域，深度学习的早期工作使用单个说话者的几个小时视频学习了从语音表示到唇部标志的映射。这方面最近的工作能够直接从语音表示生成图像，并在他们经过训练的特定说话人上展示了卓越的生成质量。然而，许多实际应用需要能够轻松用于通用身份和语音输入的模型，这种模型经过数千种身份和声音的训练。它们可以在任何声音中的任何身份的单个静态图像上生成准确的嘴唇运动，包括由文本到语音系统生成的合成语音。然而，要用于翻译讲座/电视剧等应用，对这些模型的要求不仅限于运行在静态图像上。我们的工作建立在后一类通用说话者的工作之上，这些工作希望对任何身份和声音的说话面部视频进行口型同步。我们发现，这些适用于静态图像的模型无法准确地应用在视频内容中的各种嘴唇形状中。我们的主要贡献如下：

我们创新性地开发了一种口型同步网络Wav2Lip，其精度超越了以往所有作品，能够实现任意语音与任意说话人脸的口型同步。此外，我们还设计了一个全新的评估框架，引入了新的基准和指标，以便对未受限视频中的口型同步进行公正评估。为了进一步推动研究进展，我们收集并发布了ReSyncED，这是一个真实的口型同步评估数据集，旨在对口型同步模型在未见过的视频上的性能进行基准测试。Wav2Lip作为首个通用说话者模型，所生成的视频在口型同步精度上与真实同步视频不相上下。在人类评估中，超过90%的情况下，Wav2Lip的表现优于现有方法。

Wav2Lip是一种将音频转换为嘴唇同步视频的技术。以下是部署（本地部署；shuziren06）和使用方法：1.安装依赖库：确保已安装Python 3.6+，然后运行以下命令安装所需库：

下载预训练模型：从官方GitHub仓库下载预训练模型：

3.将下载的模型文件放在项目根目录下的checkpoints文件夹中。
准备音频文件：将要转换的音频文件放在data文件夹中，确保文件名为input.wav。
运行脚本：使用以下命令运行转换脚本：
输出结果：转换完成后，将在data文件夹中生成名为output.mp4的嘴唇同步视频。
注意：在使用Wav2Lip之前，请确保已阅读官方文档和GitHub仓库中的说明，以了解技术限制和可能的错误。

无忧秘书智脑

关注

16
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
AI数字人的秘密武器：Wav2Lip语音驱动人脸模型

此外，我们还设计了一个全新的评估框架，引入了新的基准和指标，以便对未受限视频中的口型同步进行公正评估。为了进一步推动研究进展，我们收集并发布了ReSyncED，这是一个真实的口型同步评估数据集，旨在对口型同步模型在未见过的视频上的性能进行基准测试。现有的技术在生成特定人物静态图像或视频上的准确嘴唇运动方面表现良好，但在处理动态、无约束的说话面部视频中任意身份的嘴唇运动时，效果并不理想。广泛的定量评估表明，我们的 Wav2Lip 模型生成的视频的口型同步精度几乎与真实同步视频一样好。shuziren06。
复制链接

扫一扫