# ，AI自动生成口型，视频嘴型自动同步

最新推荐文章于 2025-05-12 23:20:23 发布

Dashesand

最新推荐文章于 2025-05-12 23:20:23 发布

阅读量3.7k

点赞数 5

文章标签：人工智能音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42907150/article/details/136240131

版权

本文介绍了Wav2Lip，一种开源工具，利用神经网络将音频内容与视频中人物的嘴唇动作同步，实现不同语言的无缝转换。通过提取音频特征和视频帧，该技术能适应各种人脸和语言，广泛应用于视频编辑和语音合成领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今日看了一些对嘴的视频，觉得很好玩，遂来记录更新一番。本文主要讲述现在一些平台上AI翻译换嘴型换语言的AI模型Wav2Lip视频融合语音技术。

介绍

Wav2Lip是一个开源工具，它是一种神经网络可以让视频中的人说话时的嘴唇的动作和音频的内容保持一致,根据语音调整嘴唇的变化，使得生成的视频人物口型跟输入的语音同步。

适用于任何人脸、任何语言、可以无缝地与原始视频融合，还可以匹配转动的脸型的口型。

霉霉说英文中文配音视频:（这个是剪映完成的，通过剪映-识别字幕-翻译中文-找个声音读出来，当然最后你自己配音也是没问题的。）

使用教程

准备工作

1、本地环境需要python环境: python3.6

2、需要音视频处理工具ffmpeg: sudo apt-get install ffmpeg

3、从远程git仓库中复制Wav2Lip模型下载到本地:

scss
复制代码git clone git@github.com:Rudrabha/Wav2Lip.git

4、在下载下来的文件根目录打开终端运行pip install -r requirements.txt

5、点击下载人脸检测训练模型，下完之后把它放对应文件夹下 face_detection/detection/s3fd.pth，其名字为s3fd.pth

执行命令

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

--checkpoint_path <ckpt>: Checkpoint（理解为一个检查点路径），转换完成的视频将默认放置到results文件夹下，这个ckpt可以指定路径。

--face <video.mp4>: 视频路径

--audio <an-audio-source>: 音频路径（可以是.mp3,.wav,甚至支持视频文件）

基本实现原理

提取音频特征: 通过使用声谱图等音频处理技术来完成。
提取视频帧: 从目标视频中提取一系列连续的视频帧，用作唇部动画的目标。
预测唇部运动：使用深度学习模型，如卷积神经网络或循环神经网络等模型，学习音频和唇部动作之间的对应关系，生成适合于输入音频的唇部动画。
合成唇部动画：将预测的唇部运动序列应用于目标视频的唇部区域。对齐和融合。
渲染和输出：将合成唇部动画序列和目标视频的内容，最终合成唇部动画叠加在目标视频中，后期处理和调整。

效果

总结

总的来说，Wav2Lip AI 的实现原理是利用深度学习模拟预测唇部运动，并应用于唇部区域，然后通过音频特征和视频进行一一对应和合成的。在很多领域都需要这种技术。

相关链接

AI网站

AI模型趋势以及排名
视频融合语音以训练好的模型，同步任何视频到任何语言任何音频，进行视频人物嘴型和语音融合，免费。
hygen 同步音色和口型，分分钟掌握多国语言，but要💰
chatGPT4.0语音对话可模拟人喘息换气等，付费💰。

工具类

☎️ 希望对大家有所帮助，如有错误，望不吝赐教，欢迎评论区留言互相学习。感谢阅读，祝您开发有乐趣。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。