SadTalker 使用与启动教程
1. 项目介绍
SadTalker 是一个开源项目,它通过学习真实的三维运动系数,为音频驱动的单张图像谈话面部动画提供了一种风格化的解决方案。该项目由西安交通大学和腾讯AI实验室共同开发,可以在不使用多张人脸图像的情况下,仅凭单张肖像图像和音频输入,生成具有谈话功能的头像视频。
2. 项目快速启动
在开始之前,请确保您的系统已安装以下软件:
- Python 3.8
- git
- ffmpeg
以下是快速启动 SadTalker 的步骤:
首先,克隆项目仓库:
git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker
接着,创建并激活虚拟环境,并安装所需的 Python 包:
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
最后,启动本地 WebUI:
对于 Windows 用户,双击 webui.bat
文件即可。
对于 Linux 或 macOS 用户,运行以下命令:
bash webui.sh
3. 应用案例和最佳实践
SadTalker 的使用案例广泛,以下是一些最佳实践:
- 使用默认配置生成面部动画:
python inference.py --driven_audio <audio.wav> --source_image <video.mp4 或 picture.png>
- 生成自然全身视频,可以通过
--still
参数,并添加enhancer
以提高生成的视频质量:
python inference.py --driven_audio <audio.wav> --source_image <video.mp4 或 picture.png> --result_dir <存储结果的文件路径> --still --preprocess full --enhancer gfpgan
更多示例和配置技巧可以在项目的最佳实践文档中找到。
4. 典型生态项目
SadTalker 的生态系统包括了多个相关的开源项目,以下是一些典型的项目:
- Coqui TTS:一个开源的文本到语音转换库,可用于生成高质量的自然语音。
- Deep3DFaceReconstruction:用于从单张照片中重建三维人脸的开源项目。
- Wav2lip:一个用于准确唇同步的开源模型,可以与 SadTalker 结合使用。
通过上述介绍,用户可以开始使用 SadTalker 进行面部动画的生成和探索。