SadTalker的安装及使用方法：

Wxin1996

于 2025-03-11 17:14:24 发布

阅读量681

点赞数 26

文章标签：音视频自然语言处理图像处理计算机视觉

本文链接：https://blog.csdn.net/Wxin1996/article/details/146184019

版权

SadTalker主页：https://github.com/Winfredy/SadTalkerhttps://github.com/Winfredy/SadTalker

1、安装NVIDIA cuda

安装方法看这篇文章：【超详细】windows10系统下深度学习环境搭建CUDA11.3+cuDNN，以及tensorflow，Keras，pyTorch对应版本_cuda11.3对应的tensorflow-CSDN博客文章浏览阅读1.3w次，点赞18次，收藏124次。2022windows系统下深度学习GPU环境搭建CUDA11.3+cuDNN8.2.1，以及tensorflow，Keras，pyTorch对应版本介绍_cuda11.3对应的tensorflowhttps://blog.csdn.net/zzjcymbq/article/details/125040993

2、安装 anaconda

anaconda安装方法可以看这篇教程：超详细Anaconda安装教程-CSDN博客文章浏览阅读10w+次，点赞522次，收藏2.4k次。本文提供Anaconda的下载、安装及卸载详细步骤。从官网和清华源下载Anaconda，选择个人安装，避开系统盘，并自动配置环境变量。安装后通过cmd验证conda和python是否可用，确保安装成功。https://blog.csdn.net/qq_45344586/article/details/124028689

3、项目下载和运行环境配置

(1)下载文件并解压

项目源码百度盘：百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1_2qdL8OAFO-RBrtBpicAqQ?pwd=sm6w

(2)命令行安装

#进入SadTalker项目目录

cd SadTalker

#创建一个python3.8名为sadtalker的虚拟环境

conda create -n sadtalker python=3.8

#激活名为sadtalker的虚拟环境

conda activate sadtalker

#pip切换到清华源提高下载速度

pip config set global.index-url Simple Index

#安装pytorch及相关包

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

pip install torch==2.4.1匹配python3.10环境

#安装视频处理工具ffmpeg

conda install ffmpeg

#安装项目相关依赖

pip install -r requirements.txt

#在刚才的命令行工具里输入命令查看虚拟环境路径

conda info

#把SadTalker源代码里面的：gfpgan\weights\GFPGANv1.4.pth剪切到虚拟环境的Lib\site-packages\gfpgan\weights 目录下，举个例子：我的虚拟环境就是截图红框路径，所以需要把gfpgan\weights\GFPGANv1.4.pth 剪切到虚拟环境的 D:\ProgramData\Anaconda3\envs\sadtalker\Lib\site-packages\gfpgan\weights 这个目录下：

4.生成数字人视频

把语音文件放到SadTalker\examples\driven_audio 目录下

把图片放到SadTalker\examples\source_image 目录下

#基础使用

#python inference.py --driven_audio --source_image --enhancer gfpgan

#--driven_audio后面需要写音频文件路径，--source_image后面写图片的路径，下面是一个例子

python inference.py --driven_audio D:\SadTalker\examples\driven_audio\bus_chinese.wav --source_image D:\SadTalker\examples\source_image\full_body_2.png --enhancer gfpgan

等待执行完成后，就可以在SadTalker\results下面的文件夹里面找到生成的结果了

参数控制：--preprocess full 和 --still

python inference.py --driven_audio D:\SadTalker\examples\driven_audio\bus_chinese.wav --source_image D:\SadTalker\examples\source_image\full_body_2.png --enhancer gfpgan --preprocess full --still

--preprocess full 表示完整图片

- -still 可以减少头部运动，防止交接处扭曲，但是整个视频就几乎只有眼睛和口型的变化了，看起来没那么自然。

python inference.py --driven_audio F:\SadTalker\SadTalker\examples\driven_audio\bus_chinese.wav --source_image F:\SadTalker\SadTalker\examples\source_image\full_body_2.png --enhancer gfpgan

参考资料：

安装不了basicsr==1.4.2的解决方法_basicsr 1.4.2 depends on tb-nightly-CSDN博客

Python 如何更改现有 conda 虚拟环境的 Python 版本|极客教程 (geek-docs.com)

PIL导入问题ImportError cannot import name _imaging from PIL_from pil import image importerror: cannot import n-CSDN博客

ERROR: No matching distribution found for tb-nightly-CSDN博客

face_alignment报错 AttributeError: _2D 或 AttributeError: _3D 解决思路_attributeerror: 'facealignment' object has no attr-CSDN博客