基于SadTalker的AI数字人模型部署

最新推荐文章于 2025-04-10 20:38:52 发布

%KT%

最新推荐文章于 2025-04-10 20:38:52 发布

阅读量845

点赞数 23

分类专栏：深度学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a287100886/article/details/145634125

版权

深度学习专栏收录该内容

9 篇文章

订阅专栏

写在前面：

之前笔者也进行了类似的数字人模型部署，可参考文章：基于Video-ReTalking的AI数字人模型部署_livetalking-CSDN博客

Video_Retalking这个模型主要应用于：对视频中人物嘴型进行重编辑，所以输入端最好是视频+音频。因而该模型能够较好实现对视频中人物声音的替换。如果是输入图片+音频，就会导致最终生成的视频仅有人物嘴部在运动，而面部较为僵硬，无法实现自然的数字人效果。

本次涉及的sadtalker模型，其输入端是图片+音频，最终生成的数字人效果较好，整个面部区域均有所运动，更加自然、但该模型在嘴型和文字的匹配度上相较于Video-Retalking模型较差。

项目源地址：GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker：Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

环境部署：

虚拟环境的创建等一些列操作就不多说了，注意python需要的是3.8版本的，这里主要讲各种包的安装和注意事项：

进入虚拟环境后，安装pytorch，这里笔者一直比较喜欢采用离线安装的方式。

离线安装包下载地址：download.pytorch.org/whl/cu118

需要下载的版本pytorch相关版本包分别为（针对windows系统）：

然后到这三个安装包的位置，使用指令：

按上面的步骤安装好后，安装requirements里的相关库，可以使用批量自动安装的方法：

pip install -r requirements.txt -i https:pypi.tuna.tsinghua.edu.cn/simple

也可以采用逐步安装每个库的方法，这里其实我是比较推荐这种方法的，前一种方法笔者安装时存在一些问题，没有安装成功，逐个替换需要安装的库名称即可。

例如：

pip install numpy==1.23.4 -i https://pypi.tuna.tsinghua.edu.cn/simple

在安装这些包时存在的一个问题是：basicsr这个库安装不上，问题出在清华镜像源没有tb-nightly先关库，所以安装这个库的时候需要换源安装：

可以从官网，或者豆瓣，或者阿里等都可以试一试，也可以尝试离线安装，找到对应的.whl文件即可。笔者是这样安装成功的：

pip install basicsr==1.4.2 -i https://pypi.org/simple

下载相关模型

这里需要下载两个文件，两个文件还是有点大的，推荐使用谷歌网盘吧，源代码库也有下载链接。

下载预训练模型：

百度网盘 (Password:sadt)

下载GFPGAN离线补丁

百度网盘 (Password:sadt)

下载好后，需要进行如下处理：

1.将下载好的sadtalker.zip解压后重命名为checkpoints，复制到SadTalker项目文件夹下。

2.将gfpgan文件解压后直接移动到SadTalker项目文件夹下。

整个文件夹格式是这样的：

运行代码：

运行指令为：

图片+音频运行指令：

python inference.py --driven_audio data/sample.wav --source_image data/sample.png

视频+音频运行指令：

python inference.py --driven_audio data/sample.wav --source_image data/sample.mp4

效果展示：

左图为Video-Retalking模型的效果，右图为SadTalker模型的效果，可以明显看到，不论是画质还是自然度，SadTalker均有较大提升。

博客等级

码龄3年

38
原创

451
点赞

334
收藏

268
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

手势识别-Yolov5模型-自制数据集训练
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
手势识别-Yolov5模型-自制数据集训练
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
NLP：利用jieba库，基于TF-IDF算法的关键词提取
weixin_55053752: 博主，这上面的TEXT只有一个，如果是针对多个文档的关键词提取，能否实现多个文档整体的关键词提取，而非单独生成每个文档的TOPN关键词及其权重。比如我研究多个政策文本的话，抽取其中的关键词及其权重，这种情况下可能导出的关键词是每个政策文本单独生成的，如果有10个政策文本，提取前20的关键词，运行结果会变成，每个政策文本分别提取20个关键词，但实际上我想要的是这10个政策文本整体上排名前20的关键词，请问这种如何实现呢
深度学习中的Channel，通道数是什么？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
C:循环链表解决约瑟夫环问题
CSDN-Ada助手: 恭喜作者在博客中分享了关于循环链表解决约瑟夫环问题的内容，这是一个很有趣的主题。希望作者能继续保持创作的热情，分享更多关于算法和数据结构的知识。下一步可以考虑分享一些实际应用场景下的算法解决方案，让读者更好地理解算法的实际应用价值。期待作者的下一篇博客！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。