基于SadTalker的AI数字人视频（以AutoDL算力云平台部署为例）

最新推荐文章于 2024-04-01 12:58:50 发布

-嘟囔着拯救世界-

最新推荐文章于 2024-04-01 12:58:50 发布

阅读量2.5k

点赞数 4

分类专栏： AI数字人文章标签：人工智能 python pip bash stable diffusion pytorch

本文链接：https://blog.csdn.net/little_carter/article/details/131360227

版权

AI数字人专栏收录该内容

2 篇文章 1 订阅

订阅专栏

目录

一、SadTalker介绍

SadTalker是一个开源的虚拟数字人制作工具，可以用一张图片生成数字人口播视频。SadTalker生成3DMM的三维（头部姿势、表情）系数，利用三维面部渲染器进行视频生成。SadTalker还提供了一些新的模式，例如静态模式、参考模式、调整大小模式等，以便更好地进行自定义应用程序。

二、准备工作

部署好AutoDL镜像并开启终端；

部署教程：基于Wav2Lip+GFPGAN的AI数字人视频（以AutoDL算力云平台部署为例）

从我的百度网盘中下载我的源码到AutoDL（该源码包括权重，懒人必备，十分推荐！）

链接：https://pan.baidu.com/s/1etXmmJ_ftwVSaqIe1EK37g?pwd=i2on

提取码：i2on

也可运行以下命令下载源码。（下载该源码还得另外下载权重，不推荐！）

（另外说明，此SadTalker版本为 v0.0.2 ）

git clone https://github.com/Winfredy/SadTalker.git

首先cd到SadTalker目录下，然后按步骤运行以下命令。

sudo apt update

sudo apt install ffmpeg

pip install -r requirements.txt

三、数字人案例（图片转视频）

在命令行中输入以下指令即可跑模型。

python inference.py --driven_audio <audio.wav> \
--source_image <video.mp4 or picture.png> \
--result_dir <a file to store results> \
--still \
--preprocess full \
--enhancer gfpgan

下面命令是我输入的例子，仅供参考，那些路径都是需要修改的。

python inference.py --driven_audio AIHuman/audio/AIHuman.mp3 --source_image AIHuman/images/03.jpeg --result_dir AIHuman/results --still --preprocess full --enhancer gfpgan

参数说明

--driven_audio：输入的音频文件路径。
--source_image：输入的图像文件路径，支持音频文件和视频MP4格式。
--checkpoint_dir：模型存放路径。
--result_dir：数据导出路径。
--enhancer：高清模型，选择gfpgan或RestoreFormer

四、展示效果

五、参考资料

参考项目：SadTalker-GitHub

参考资料：基于SadTalker的AI主播，Stable Diffusion也可用_Mr数据杨的博客-CSDN博客

-嘟囔着拯救世界-

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
2
评论
基于SadTalker的AI数字人视频（以AutoDL算力云平台部署为例）

SadTalker是一个开源的虚拟数字人制作工具，可以用一张图片生成数字人口播视频。SadTalker生成3DMM的三维（头部姿势、表情）系数，利用三维面部渲染器进行视频生成。SadTalker还提供了一些新的模式，例如静态模式、参考模式、调整大小模式等，以便更好地进行自定义应用程序。
复制链接

扫一扫