VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

最新推荐文章于 2024-07-20 06:19:20 发布

UnknownBody

最新推荐文章于 2024-07-20 06:19:20 发布

阅读量428

点赞数 3

分类专栏：深度学习文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138145209

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文是深度学习相关文章，针对《VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time》的翻译。

摘要

我们介绍了VASA，这是一个在给定单个静态图像和语音音频剪辑的情况下，通过吸引人的视觉情感技能（VAS）生成逼真的会说话的人脸的框架。我们的首款模型VASA-1不仅能够产生与音频完美同步的嘴唇动作，还能够捕捉大量面部细微差别和自然的头部动作，有助于感知真实性和生动性。核心创新包括一个基于扩散的整体面部动力学和头部运动生成模型，该模型在面部潜在空间中工作，以及使用视频开发这种富有表现力和解开纠缠的面部潜在空间。通过广泛的实验，包括对一组新指标的评估，我们表明我们的方法在各个维度上都显著优于以前的方法。我们的方法提供了具有逼真面部和头部动态的高视频质量，还支持以高达40 FPS的帧速率在线生成512×512视频，启动延迟可忽略不计。它为模拟人类对话行为的逼真化身的实时互动铺平了道路。项目网页：https://www.microsoft.com/en-us/research/project/vasa-1/

1 引言

2 相关工作

3 方法

4 实验

5 结论

总之，我们的工作提出了VASA-1，这是一种音频驱动的会说话的人脸生成模型，以其从单个图像和音频输入中高效生成逼真的嘴唇同步、生动的面部表情和自然的头部运动而闻名。它在提供视频质量和性能效率方面显著优于现有方法，在生成的人脸视频中展示了很有前途的视觉情感技能。技术基石是一个创新的整体面部动力学和头部运动生成模型，该模型在一个富有表现力和解开纠缠的面部潜在空间中工作。
VASA-1的进步有可能重塑人类与人工智能在通信、教育和医疗保健等各个领域的互动。可控调节信号的集成进一步增强了模型对个性化用户体验的适应性。
局限性和未来的工作。我们的方法仍有一些局限性。目前，它只处理人体区域直到躯干。延伸到整个上半身可以提供额外的功能。在使用3D潜在表示时，缺乏更明确的3D人脸模型可能会导致神经渲染导致的纹理粘贴等伪影。此外，我们的方法没有考虑头发和衣服等非刚性元素，这可以通过更强的视频先验来解决。未来，我们还计划融入更多样的谈话风格和情感，以提高表达力和控制力。

6 社会影响和负责任的人工智能考虑

UnknownBody

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

我们介绍了VASA，这是一个在给定单个静态图像和语音音频剪辑的情况下，通过吸引人的视觉情感技能（VAS）生成逼真的会说话的人脸的框架。我们的首款模型VASA-1不仅能够产生与音频完美同步的嘴唇动作，还能够捕捉大量面部细微差别和自然的头部动作，有助于感知真实性和生动性。核心创新包括一个基于扩散的整体面部动力学和头部运动生成模型，该模型在面部潜在空间中工作，以及使用视频开发这种富有表现力和解开纠缠的面部潜在空间。通过广泛的实验，包括对一组新指标的评估，我们表明我们的方法在各个维度上都显著优于以前的方法。
复制链接

扫一扫