对话式数字人

Liuffet

已于 2024-08-02 10:27:38 修改

阅读量210

点赞数 1

文章标签：人工智能深度学习

于 2024-07-30 22:11:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Silver_ljh/article/details/140806952

版权

文章目录

- 概要
- 技术名词解释

概要

对话式数字人的应用场景很广，最近几年在银行场景，教育场景，娱乐场景都有应用。

本文介绍Stable diffusion加Sadtalker插件实现的数字人；

技术名词解释

Sadtalker是一种基于深度学习的音频驱动视频生成技术，可以捕获输入的音频信号使其转化为视频内容，此插件由大量的音频和对应的人脸图片训练得来。

Sadtalker技术总结就是把输入的音频序列转化为一个中间表示，包括表情系数和头部姿势系数，然后再把这些中间表示经过渲染器渲染成每一帧。

这两个系数是由两个不同的解码器输出的，因为表情作为局部特征，头部姿势作为全局特征，比如音量特征会影响表情但不会影响头部姿势，所以在解码时候将其解耦有助于避免生成畸变的人脸。

在生成表情系数时，audio encoder会将语音每一时间步的梅尔频谱图编码为向量，然后连同表情系数，zblink（一个表示眨眼概率的参数），一起输入到mapping网络中，mapping网络是一个全连接层，把三个输入的向量映射到一个64维的表示；然后把通过解码器生成的表情系数通过wav2lip生成视频帧，提取其中的表情系数与之前的表示做蒸馏，加快了后续解码的速度，其它系数来构建loss。

之后将提取的参数输入到3DMM中，驱动模型重建人脸。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。