使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】

红鼠爱学习

已于 2024-03-31 00:49:12 修改

阅读量1.5k

点赞数 5

分类专栏： stable diffusion AI数字人文章标签： stable diffusion 人工智能 AI作画 AIGC 音视频程序员创富

于 2024-03-30 23:59:31 首次发布

本文链接：https://blog.csdn.net/jybaby/article/details/137187325

版权

stable diffusion 同时被 2 个专栏收录

8 篇文章

订阅专栏

AI数字人

3 篇文章

订阅专栏

使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】

StableDiffusion安装-请访问下面文章

TTS 也就是 Text-to-speech 文字转语音

有问题可以私信

sad talker安装流程.

下载sadTalker插件所需要的模型与离线包文件

checkpoint文件下载和配置

GFPGAN模型下载-人脸增强模型

数字人效果请访问下面链接

StableDiffusion安装-请访问下面文章

5分钟 Stable Diffusion 本地安装-本地部署（秋叶整合包）【Stable Diffusion 实战教程】_stable diffusion 秋叶整合包-CSDN博客

5分钟安装包，Stable Diffusion-安装（整合版），点击链接即可保存。

链接：夸克网盘分享

提取码：vSjh

TTS 也就是 Text-to-speech 文字转语音

TTS 也就是 Text-to-speech，文字转语音可以说是视频创作者的福音了，前有剪映的小帅小美，后有 AI 音频爆发后的各种声音，通过消除对配音演员和录制会话的需求，大大减少了制作时间和成本。现在可以凭借 AI 音频多样化的可自定义语音和口音，使得创作者能够提高视频和语音内容的质量、创作更多引人入胜的内容，更好的吸引观众并将他们的视频提升到一个新的水平。下面将给给大家介绍几款主流好用的 TTS 类音频软件：

一款免费的语音转文字的线上应用，短小精悍，页面十分简洁，基本上属于上手就能用的软件，不需要配置各种代码，内置了已经训练好的几十种声音可供选择，包括不但不限于：中文及各国语言，甚至还有粤语等方言，甚至还有经典的渣渣辉的声音。用来直接做短视频的配音还是很有特色的。一大亮点在于内置了训练好的各种游戏或动画中二次元角色的声音，可以直接使用，做短视频或者有兴趣的同学可以打开思路进行创作。

有问题可以私信

sad talker安装流程.

打开stable diffusion 中扩展栏目，从网页下载sad talker插件，下载完之后可以在installed处检查会出现sadtalker的标志，如果有就下载成功了，如果没有可能是因为网络原因，多试几次，如果不行那就上gitup下载，并把下载后的插件放到sd栏目中的，E:\stable-diffusion-webui\extensions文件中。

打开 Stable Diffusion WebUI 选择 Extensions -》从 URL 安装，安装地址填写：https://github.com/OpenTalker/SadTalker

下载sadTalker插件所需要的模型与离线包文件

在我们第一步安装插件后，大家重启webui便能看到SadTalker的tab选项，如下所示：

但是 sadtalker 的插件的运行需要我们下载两部分内容，一部分是checkpoint，一部分是GFPGAN模型.

checkpoint文件下载和配置

checkpoint ：指的是运行sadtalker插件需要的基础模型，如：预训练模型、构造脸部说话姿势等工具模型。下面提供两种下载地址：

1、网页端下载，请按下图红框框出来的模型下载

首先打开网址：Releases · OpenTalker/SadTalker · GitHub。

先下载这4个文件

当前界面一直往下滑，再下载8个文件：

一共12个文件。

2、百度网盘下载链接方式：

https://pan.baidu.com/s/1P4fRgk9gaSutZnn8YW034Q?pwd=sadt

大家任选一种方式下载，完成后将下载的12个文件放到如下路径下：

\stable-diffusion-webui\extensions\SadTalker\checkpoints

如果没有checkpoints 文件夹可手动创建，注意的是别忘了解压hub.zip文件，如下我的目录可参考。

GFPGAN模型下载-人脸增强模型

GFPGAN是一种人脸增强模型，而sadTalker插件也训练了自己的人脸增强模型，下载地址如下：

1、网页下载方式

https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi?usp=sharing

2、百度网盘下载地址

https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt

下载并解压，一共4个模型文件放到如下目录中：

\stable-diffusion-webui\extensions\SadTalker\gfpgan\weights

如果上述目录没有，请在SadTalker目录中自行创建

下载并安装ffmpeg-虚拟数字人能开口说话

这一步的作用是语音格式的各种转换，虚拟数字人能开口说话，需要我们上传自己的语音，如果格式不符合会自动转换。

Windows下安装使用ffmpeg

官网下载并安装： Download FFmpeg

点击后下载，将下载的文件拷贝到C盘根路径下，解压后并重新命名为 ffmpeg

配置环境变量

快捷键 win + R ，输入：SYSTEMPROPERTIESADVANCED ，回车。

点击环境变量-》选择path-》编辑-》新建-》填入：C:\ffmpeg\bin

检查ffmpeg是否安装成功，如下则成功

第四步：生成虚拟数字人视频

如此这般，就把sadtalker插件，配置到stable diffusion了，接下来的操作就很简单了，如下图所示，分别把你要上传的模特和语音上传至对应的栏目里，点击生成即可,建议使用面部修复，点击生成就可以了，生成结果在\sd-webui-aki-v4\outputs在这个文件夹里查看。在这里我就不做效果展示了大家可以私信我