VASA-1：实时音频驱动的数字人说话面部视频生成技术

最新推荐文章于 2024-12-05 10:58:19 发布

AI记忆

最新推荐文章于 2024-12-05 10:58:19 发布

阅读量5.5k

点赞数 9

分类专栏：深度学习论文与相关应用文章标签： AIGC 人工智能 VASA-1 数字人说话视频

本文链接：https://blog.csdn.net/sunbaigui/article/details/138189324

版权

深度学习论文与相关应用专栏收录该内容

101 篇文章

订阅专栏

本文介绍了一项由MicrosoftResearchAsia开发的先进框架VSA-1，它能根据静态图像和语音生成具有视觉情感的说话视频。该模型通过面部编码器、面部动态建模和解码器实现逼真同步与自然运动，为虚拟人交互等领域带来突破。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简介

论文：https://arxiv.org/pdf/2404.10667.pdf
项目主页：https://www.microsoft.com/en-us/research/project/vasa-1/

本文介绍了 VASA-1，这是一个由 Microsoft Research Asia 开发的框架，用于生成逼真的、音频驱动的说话（面部）视频。VASA-1 能够根据单一静态图像和语音音频片段生成具有视觉情感技能（Visual Affective Skills, VAS）的说话视频。该模型不仅能够产生与音频精确同步的唇部运动，还能捕捉到广泛的面部微妙表情和自然头部运动，从而增强真实感和生动感。从方法与效果上来讲，VASA-1都具有较大的突破，为虚拟人交互、虚拟人面部视频生成、AI译片等都提供了更为坚实的基础，流程示意图如上图所示。

二、网络

本文介绍了 VASA-1，这是一个用于生成逼真的、音频驱动的说话视频的框架。核心网络结构和方法可以概括为以下几个关键组件：

面部所有特征集合：

独立训练的面部编码器从输入的静态图像中提取3D外观体积（参考Megaportraits: One-shot megapixel neural head avatars文章）、身份代码、头部姿态和面部motion latent特征。

面部motion建模：

通过使用大量的面部视频数据，构建了一个具有高度解耦和表现力的面部motion latent空间（包括唇部运动、非唇部表情、眼睛注视和眨眼等信息的统一特征）。这个模型采用Transformer架构，这个空间能够捕捉面部动态和头部运动，同时保持身份和外观的独立性。在给定音频和其他条件时（包括主要眼睛注视方向、头部到相机的距离和情感偏移等可选条件信号）生成motion latent特征。如下图所示：

说话面部视频生成：

在推理时，给定任意面部图像和音频剪辑。首先使用训练好的面部编码器提取3D外观volume和身份latent特征。其次，提取音频特征以及其他条件输入到面部motion的Diffusion Transformer生成motion latent。最后结合3D外观volume和身份latent特征以及motion latents解码出视频。如下图所示：