对话式数字人

概要

对话式数字人的应用场景很广,最近几年在银行场景,教育场景,娱乐场景都有应用。

本文介绍Stable diffusion加Sadtalker插件实现的数字人;

技术名词解释

Sadtalker是一种基于深度学习的音频驱动视频生成技术,可以捕获输入的音频信号使其转化为视频内容,此插件由大量的音频和对应的人脸图片训练得来。

Sadtalker技术总结就是把输入的音频序列转化为一个中间表示,包括表情系数和头部姿势系数,然后再把这些中间表示经过渲染器渲染成每一帧。

这两个系数是由两个不同的解码器输出的,因为表情作为局部特征,头部姿势作为全局特征,比如音量特征会影响表情但不会影响头部姿势,所以在解码时候将其解耦有助于避免生成畸变的人脸。

在生成表情系数时,audio encoder会将语音每一时间步的梅尔频谱图编码为向量,然后连同表情系数,zblink(一个表示眨眼概率的参数),一起输入到mapping网络中,mapping网络是一个全连接层,把三个输入的向量映射到一个64维的表示;然后把通过解码器生成的表情系数通过wav2lip生成视频帧,提取其中的表情系数与之前的表示做蒸馏,加快了后续解码的速度,其它系数来构建loss。

之后将提取的参数输入到3DMM中,驱动模型重建人脸。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值