多模态数字人建模、合成与驱动综述

最新推荐文章于 2025-03-10 22:28:53 发布

数据派THU

最新推荐文章于 2025-03-10 22:28:53 发布

阅读量347

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247645910&idx=3&sn=f802f5c91e6eb251f885eefd3f258e47&chksm=e8c3c076646acf0cd20665e8c5df778b04eb79fdf70a3b1786fdfcc21b645801031a33ee6cbe&scene=126&sessionid=0

版权

来源：专知
本文为论文介绍，建议阅读5分钟
本文讨论在图形学和视觉领域比较重要的多模态人头动画、多模态人体动画以及多模态数字人形象构建3个主题，介绍其方法论和代表工作。

多模态数字人是指具备多模态认知与交互能力，且有类人的思维和行为逻辑的真实自然虚拟人。近年来随着计算机视觉与自然语言处理等领域的交叉融合以及蓬勃发展，相关技术取得显著进步。本文讨论在图形学和视觉领域比较重要的多模态人头动画、多模态人体动画以及多模态数字人形象构建3个主题，介绍其方法论和代表工作。在多模态人头动画主题下介绍语音驱动人头和表情驱动人头两个问题的相关工作。在多模态人体动画主题下介绍基于循环神经网络（recurrent neural networks，RNN）的、基于Transformer的和基于降噪扩散模型的人体动画生成。在多模态数字人形象构建主题下介绍视觉语言相似性引导的虚拟形象构建、基于多模态降噪扩散模型引导的虚拟形象构建以及三维多模态虚拟人生成模型。本文将相关方向的代表性工作进行介绍和归类，对已有方法进行总结，并展望未来可能的研究方向。