sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

最新推荐文章于 2025-05-14 13:07:11 发布

dc爱傲雪和技术

最新推荐文章于 2025-05-14 13:07:11 发布

阅读量638

点赞数 4

分类专栏：立体视觉文章标签：学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36372352/article/details/136996174

版权

立体视觉专栏收录该内容

18 篇文章

订阅专栏

本文介绍了如何利用GitHub上的Colab项目和TTSmaker工具，将静态图片转换成动态说话的视频。作者分享了使用方法，包括添加图片、文字转语音、生成mp4文件，以及对AI生成的真实度和清晰度的评价。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文出处

https://arxiv.org/abs/2211.12194

使用方法

1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片，这里添加的是航天之父戚发轫，respect。

2. 再用ttsmaker文字转语音工具，将戚先生在剧本中要说的话转为语音，链接如下

https://ttsmaker.com/zh-cn

3. 生成wav文件后，上传到colab中的/examples/driven_audio文件夹，并在代码部分进行名称替换

4. 接下来只需要按步骤运行demo，就能在result文件夹下生成想要的动起来的mp4文件了，我的视频大约1分半，用了约10分钟生成，生成效果如下（已经按第6步视频增强）。

4718_1711785136

5.生成的视频分辨率不够高，但相比之前自己使用的DID生成的数字人，真实度高了不少，DID生成的嘴巴明显是从另外找了一个，属于一眼假，DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊，用了一个手机上的app叫wink来视频增强

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。