数字人解决方案——VividTalk单张照片实现人物头像说话的效果

知来者逆

已于 2024-02-29 11:03:06 修改

阅读量2k

点赞数 21

分类专栏：数字人文章标签：数字人 VividTalk

于 2024-01-29 20:25:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matt45m/article/details/135919078

版权

前言

VividTalk是一项由南京大学、阿里巴巴、字节跳动和南开大学共同开发的创新项目。该项目通过结合单张人物静态照片和一段语音录音，能够制作出一个看起来仿佛实际说话的人物视频。项目的特点包括自然的面部表情和头部动作，口型能够同步，同时支持多种语言和不同风格，如真实风格、卡通风格等。
在这里插入图片描述
VividTalk是一个通用的一次性音频驱动的说话头部生成框架，旨在通过音频作为输入信号，驱动任意面部图像的生成。该技术具有广泛的应用场景，包括虚拟化身、视觉配音和视频会议等。为了最大程度地增加生成视频的逼真度，VividTalk考虑了非刚性面部表情组件和刚性头部组件的建模。

技术挑战与方法创新:

面部表情运动建模： VividTalk采用了3D面部可塑模型（3DMM）作为中间表示，相较于稀疏的面部标志点，3DMM能够更详细地建模各种表情。然而，面部表情的混合形状分布差异导致了音频和面部运动之间的一对多映射问题。VividTalk通过使用混合形状和3D顶点，以及基于多分支变压器的网络，充分利用长期音频上下文，解决了这一挑战。
刚性头部运动建模： 对于刚性头部运动，由于与音频关系较弱，建模更加困难。VividTalk将这个问题视为离散和有限空间中的代码查询任务，并建立了可学习的头部姿势代码本，具有重构和映射机制。这创新性地解决了从音频中生成合理头部姿势的挑战。

VividTalk框架的两阶段流程:

音频到网格生成（第一阶段）:
- 使用混合形状和3D顶点作为中间表示，提供全局粗略运动和细粒度嘴唇运动的描述。
- 基于多分支变压器的网络，充分利用长期音频上下文，建模音频与中间表示的关系。
网格到视频生成（第二阶段）:
- 建立可学习的头部姿势代码本，用于合理地从音频中学习刚性头部运动。
- 将学习到的两个运动应用于参考身份，得到驱动网格。
- 渲染内部面部和外部面部的投影纹理，全面建模运动。
- 使用双分支运动VAE建模密集运动，逐帧合成最终的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知来者逆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。