SadTalker 使用与启动教程

蒋素萍Marilyn

于 2025-04-11 09:26:22 发布

阅读量906

点赞数 19

本文链接：https://blog.csdn.net/gitblog_00072/article/details/147134641

版权

SadTalker 使用与启动教程

SadTalker [CVPR 2023] SadTalker：Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation 项目地址: https://gitcode.com/gh_mirrors/sa/SadTalker

1. 项目介绍

SadTalker 是一个开源项目，它通过学习真实的三维运动系数，为音频驱动的单张图像谈话面部动画提供了一种风格化的解决方案。该项目由西安交通大学和腾讯AI实验室共同开发，可以在不使用多张人脸图像的情况下，仅凭单张肖像图像和音频输入，生成具有谈话功能的头像视频。

2. 项目快速启动

在开始之前，请确保您的系统已安装以下软件：

Python 3.8
git
ffmpeg

以下是快速启动 SadTalker 的步骤：

首先，克隆项目仓库：

git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker

接着，创建并激活虚拟环境，并安装所需的 Python 包：

conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt

最后，启动本地 WebUI：

对于 Windows 用户，双击 webui.bat 文件即可。

对于 Linux 或 macOS 用户，运行以下命令：

bash webui.sh

3. 应用案例和最佳实践

SadTalker 的使用案例广泛，以下是一些最佳实践：

使用默认配置生成面部动画：

python inference.py --driven_audio <audio.wav> --source_image <video.mp4 或 picture.png>

生成自然全身视频，可以通过 --still 参数，并添加 enhancer 以提高生成的视频质量：

python inference.py --driven_audio <audio.wav> --source_image <video.mp4 或 picture.png> --result_dir <存储结果的文件路径> --still --preprocess full --enhancer gfpgan

更多示例和配置技巧可以在项目的最佳实践文档中找到。