Wav2Lip

最新推荐文章于 2024-08-08 10:39:19 发布

量化交易曾小健(金融号)

最新推荐文章于 2024-08-08 10:39:19 发布

阅读量3.4k

点赞数

文章标签： python 人工智能

本文链接：https://blog.csdn.net/qq_39970492/article/details/130920635

版权

该文介绍了更新的视觉质量光盘权重，用于高精度的视频口型同步技术。这项技术适用于各种身份、声音和语言，包括CGI面孔和合成声音。提供训练和推理代码、预训练模型以及GoogleColabNotebook的快速入门教程。此外，还有新的评估基准、指标和教程视频。用户可以通过Python环境和FFmpeg进行操作，也可以使用Docker镜像。文章还提供了预训练模型Wav2Lip和Wav2Lip+GANS的链接，以及如何进行推理的指令。

摘要由CSDN通过智能技术生成

自述文件中更新了视觉质量光盘的权重！
以高精度将视频口型同步到任何目标语音 💯。试试我们的交互式演示。
✨ 适用于任何身份、声音和语言。也适用于 CGI 面孔和合成声音。
提供完整的训练代码、推理代码和预训练模型💥
或者，使用 Google Colab Notebook 快速入门：链接。检查点和示例也可在 Google Drive 文件夹中找到。还有一个关于此的教程视频，由 What Make Art 提供。此外，多亏了 Eyal Gruss，Google Colab notebook 更易于使用，具有更多有用的功能。此链接提供了教程协作笔记本。
🔥 🔥 发布了几个新的、可靠的评估基准和指标 [评估/此 repo 的文件夹]。还提供了计算论文中报告的指标的说明。
免责声明

先决条件
Python 3.6
ffmpeg: sudo apt-get 安装 ffmpeg
使用 pip install -r requirements.txt 安装必要的包。或者，此处提供了使用 docker 镜像的说明。如果您遇到任何问题，请查看此评论并评论要点。
人脸检测预训练模型下载到face_detection/detection/sfd/s3fd.pth。如果上述方法不起作用，请使用替代链接。
获取权重
模型描述模型链接
Wav2Lip高精度口型同步链接
Wav2Lip + GANS 口型同步稍差，但视觉质量更好Link
Expert Discriminator专家鉴别器的权重Link
Visual Quality Discriminator 在 GAN setupLink 中训练的视觉光盘的权重
使用预训练模型对口型视频（推理）
您可以将任何视频口型同步到任何音频：

python inference.py --checkpoint_path ckpt --face video.mp4 --audio an-audio-source
结果保存（默认）在 results/result_voice.mp4 中。您可以将其指定为参数，类似于其他几个可用选项。音频源可以是 FFMPEG 支持的任何包含音频数据的文件：*.wav、*.mp3 甚至是视频文件，代码会自动从中提取音频。

获得更好结果的提示：