看到这儿里,你已经迫不及待想要在自己的电脑上面部署Stable Diffusion了
但是,我还发现了一个更有趣的模型——SadTalker,talker顾名思义,是一个说话的人,他的作用就是通过模型,将一张图片和一段音频合成为一个动态的视频!!!!!
前期准备
-
安装python3.10.6.
-
安装git.
-
安装ffmpeg如何在Windows上安装FFmpeg:15个步骤(带图片) (wikihow.com)
https://www.wikihow.com/Install-FFmpeg-on-Windows
安装
- 得益于Stable Diffusion的插件属性,我们可以直接从其插件页进行克隆SadTalker的库,具体实现如下:
-
下载完之后,可以在installed处检查会出现sadtalker的标志,如果有就下载成功了,如果没有可能是因为网络原因,多试几次,如果不行那就上gitup克隆仓库,并把下载后的插件放到sd栏目中的,E:\stable-diffusion-webui_23-04-18\extensions文件中。
下载官方的预训练模型
- sadtalker.zip - Google 云端硬盘
https://drive.google.com/file/d/1gwWh45pF7aelNP_P78uDJL8Sycep-K7j/view
-
gfpgan.zip - Google 云端硬盘
https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi/edit
需要魔法网络
当然,热心的我也为大家上传到了百度网盘上去了!!!
两个预训练模型下载好后将这两个文件夹复制粘贴到你的SadTalker文件夹中去
这样你就可以玩这个项目啦!!!
旁边的设置看你需求,新手嘛,先默认的试试,后续再慢慢调试
大功成啦!!!现在导入你的图片和音频就能实现啦!!(大概3秒需要30s,这取决于你的GPU和是否安装CUDA) 后面我也会教大家如何基于Stable Diffusion来训练一个属于自己想要的风格的Lora模型,网址:Stable Diffusion如何训练属于自己的Lora模型-CSDN博客https://blog.csdn.net/m0_59139710/article/details/134043076