VASA-1:实时音频驱动的数字人说话面部视频生成技术

本文介绍了一项由MicrosoftResearchAsia开发的先进框架VSA-1,它能根据静态图像和语音生成具有视觉情感的说话视频。该模型通过面部编码器、面部动态建模和解码器实现逼真同步与自然运动,为虚拟人交互等领域带来突破。
摘要由CSDN通过智能技术生成

一、简介

论文:https://arxiv.org/pdf/2404.10667.pdf
项目主页:https://www.microsoft.com/en-us/research/project/vasa-1/

        本文介绍了 VASA-1,这是一个由 Microsoft Research Asia 开发的框架,用于生成逼真的、音频驱动的说话(面部)视频。VASA-1 能够根据单一静态图像和语音音频片段生成具有视觉情感技能(Visual Affective Skills, VAS)的说话视频。该模型不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部微妙表情和自然头部运动,从而增强真实感和生动感。从方法与效果上来讲,VASA-1都具有较大的突破,为虚拟人交互、虚拟人面部视频生成、AI译片等都提供了更为坚实的基础,流程示意图如上图所示。

二、网络

        本文介绍了 VASA-1,这是一个用于生成逼真的、音频驱动的说话视频的框架。核心网络结构和方法可以概括为以下几个关键组件:

面部所有特征集合:

        独立训练的面部编码器从输入的静态图像中提取3D外观体积(参考Megaportraits: One-shot megapixel neural head avatars文章)、身份代码、头部姿态和面部motion latent特征。

面部motion建模

        通过使用大量的面部视频数据,构建了一个具有高度解耦和表现力的面部motion latent空间(包括唇部运动、非唇部表情、眼睛注视和眨眼等信息的统一特征)。这个模型采用Transformer架构,这个空间能够捕捉面部动态和头部运动,同时保持身份和外观的独立性。在给定音频和其他条件时(包括主要眼睛注视方向、头部到相机的距离和情感偏移等可选条件信号)生成motion latent特征。如下图所示:

说话面部视频生成:

        在推理时,给定任意面部图像和音频剪辑。首先使用训练好的面部编码器提取3D外观volume和身份latent特征。其次,提取音频特征以及其他条件输入到面部motion的Diffusion Transformer生成motion latent。最后结合3D外观volume和身份latent特征以及motion latents解码出视频。如下图所示:

        以上这些组件共同工作,使得 VASA-1 能够生成具有逼真唇音同步、生动面部表情和自然头部运动的说话视频。此外,该方法还能够实时生成高分辨率的视频,且具有较低的延迟,这为实时应用中的虚拟AI头像交互提供了可能性

三、结果

可控定性结果

解耦定性结果:

SOTA定量对比:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值