wav2lip中文语音驱动人脸训练-CSDN博客

本文链接：https://blog.csdn.net/lsb2002/article/details/133377829

本文介绍了Wav2Lip，一种能将人物视频与目标语音完美同步的AI模型，通过两阶段训练和创新评估指标，显著改善了动态视频的唇形同步效果，尤其在通用身份和语音输入的应用中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 Wav2Lip介绍

1.1 Wav2Lip概述

2020年，来自印度海德拉巴大学和英国巴斯大学的团队，在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》，在文章中，他们提出一个叫做Wav2Lip的AI模型，只需要一段人物视频和一段目标语音，就能够让音频和视频合二为一，人物嘴型与音频完全匹配。

对口型的技术，此前其实已经有很多，甚至在基于深度学习的技术出现之前，就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。但这Wav2Lip 在目前的众多方法中，显示出了绝对优势。现有的其它方法，主要是基于静态图像，来输出与目标语音匹配的唇形同步视频，但对于动态的、在讲话的人物，唇形同步往往效果不佳。而 Wav2Lip 则可以直接将动态的视频，进行唇形转换，输出与目标语音相匹配的视频结果。

论文地址：论文地址

代码地址：GitHub - Rudrabha/Wav2Lip