干货分享|如何使用Stable Diffusion打造会说话的数字人？

全栈开发圈

于 2024-08-15 16:56:26 发布

阅读量311

点赞数 5

文章标签： stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quanzhankaifaqua/article/details/141226619

版权

数字人已不是什么新鲜名词了。在许多领域，尤其是媒体和娱乐领域，经常可以看到卡通形象的人物或逼真的虚拟主持人。在Stable Diffusion中，我们可以上传一段录制好的音频文件，然后使用SadTalker插件，将音频和图片相结合，让图片上的角色开口说话。

在 WebUI中单击 “SadTalker”选项卡，在 “上传图像”窗口中上传角色图片，在“上传音频或TTS”窗口中上传音频文件，如图所示。

在右侧的“设置”窗口中选择脸部模型的分辨率，勾选“使用GFPGAN增强面部” 复选框，然后单击“生成”按钮，如图所示。

提示:

上传的音频时长决定了生成视频的时长，在绘世启动器进程窗口的底部可以查看生成进度。

视频生成完毕后，我们可以在下方的窗口中预览视频效果。单击WebUI上方的“设置”选项卡，在左侧的列表中单击“SadTalker”，就能看到视频文件的输出路径，如图所示。

相对于其他插件来说， SadTalker的配置较为复杂。如果配置出现问题导致在输出路径中找不到视频文件，则可以单击预览窗口右上角的按钮手动保存处理好的视频文件，如图所示。

在“预处理”选项组中有5 个选项，其中“裁剪”和“裁剪后扩展”选项会把上传的原图裁剪成只留下角色的面部，让头部运动看起来更加自然，如图所示。

“完整”选项不对参考图进行裁剪，因此当角色的头部运动较大时，可能出现脖子区域撕裂的问题。此时需要勾选“静止模式”复选框，以减少角色的头部运动。“缩放”选项让参考图的背景和角色的身体产生缩放和平移运动，脖子区域的撕裂问题仍然存在，并且运动的效果也不够自然。另外，选择“填充至完整”选项会用参考图填充头部以外的区域，但如果参考图的宽高比不是1:1，可能会出现严重的画面撕裂，如图所示。

本期内容就到此啦，下期讲解如何快速打造瞬息全宇宙，关注我不迷路，有机会白嫖书籍哦!

本文摘自《解密AI绘画与修图：Stable Diffusion+Photoshop》，获出版社和作者授权发布。

解密AI绘画与修图：Stable Diffusion+Photoshop——jd

全栈开发圈

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。