数字人：定义、技术路径与高度拟人化,-CSDN博客

本文链接：https://blog.csdn.net/Cool__Yang/article/details/132319898

ppt及讲解

封面及目录

下面汇报一下关于数字人的调研结果，主要是从以下三个方面：定义、技术实现和技术路线。

1.定义

虚拟：与具备实体的机器人相比，数字人依赖显示设备存在。
就比如通过电子屏看到的AI手语主持数字人。
目前，数字人主要存在于电子屏中，像我们在APP、小程序中看到的图片、视频、实时直播中的数字人。在未来，VR设备与全息投影也将成为其重要存在方式。
全息投影：裸眼可以达到戴上VR眼镜的观感。

在不同场景中，数字人的实现难度不同
就比如对时延的要求：像直播这类的实时场景要求低时延，但内容生成场景无该要求。

数字化：一句比较好的解释是，数字人是典型的多技术综合产物。具体会涉及到的技术将在技术实现中详细展开。

最后一个关键词是“人”：数字人要在外表、行为、交互行为等方面实现高度拟人化。

高度拟人化是数字人的核心因素。因为数字人最终面向普通大众，消费者的，那么，能否提供足够自然逼真的相处体验，将成为数字人在各个场景中取代真人，完成语音交互方式升级的重要标准。

2.技术实现

那么如何通过技术来实现数字人的核心价值，即高度拟人化呢？将从以下三个方面展开：

第一，什么技术让数字人拥有了人的外观？

第二，什么技术让数字人拥有了人的行为？（本次汇报中重点展开的部分）

第三，什么技术让数字人拥有人的思想？（简述）

2.1具有人的外观

首先，具有人的外观。从下面的图片我们可以看到，就是让数字人具有特定的相貌、性别和性格等人物特征。主要技术是CG建模。CG建模可以根据数字人的类别，分为3个方向：基于真人采集建模，高保真建模和风格化。

图像迁移技术：是指将一幅图像的风格应用到另一幅图像上，使其呈现出全新的视觉效果。深度学习技术为图像风格迁移带来了革命性的突破。

为了实现数字人在外观上的高度拟人化，就要对一些细节比如汗毛、皮肤和头发，进行单独的建模。细节上的拟人化，主要是通过渲染来实现的。

比如右面的两幅图片中人物的头发，通过unity渲染过的头发就更加逼真，可以清晰地看到发丝，还有光线阴影导致的不同区域毛发的着色不同。

2.2具有人的行为

第二点，具有人的行为，数字人要具有用语言、面部表情和肢体动作表达的能力。

技术实现：简单来说就是，驱动。
根据参考的文章，将该技术分成了两类，一是中之人的真人驱动（中之人，就是穿上动捕设备的真人），二是，依靠深度学习，可以靠AI模型自力更生的计算驱动。

2.2.1真人驱动型技术流程

表演捕捉+驱动：动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人

首先是真人驱动的技术实现流程：

第一步：形象设计及建模。就是要有一个数字人的形象。具体技术在2.1具有人的外观中已经提到了。

第二步：建模绑定。在真人身上选取关键点，将关键点和数字人模型绑定在一起。

为第三步表演捕捉做准备，最初的表演捕捉方式是真人要穿上动捕设备，动作捕捉设备会基于关键点来捕捉真人的眼神、形态、动作等方面的关键点变化。

第四、五步：用来1：1驱动后面的数字人模型，再结合语音合成技术，就可以渲染出数字人视频或进行实时互动。

2.2.2计算驱动型技术流程

下面是计算驱动型的技术流程：
第一步：数字人外观建模

第二步：模型关键点绑定

到第三步就不一样了：训练各类驱动的深度学习模型。模型=数据+算法
其中，训练数据来源于第一步。在设计形象的同时，还要做另一个准备工作：①打点扫描：采集真人说话时的唇动、表情、姿态等作为驱动数据。
（打点的精度和数量，扫描时数据与场景的丰富程度，都会直接影响最终效果。）
再结合深度学习算法，就可以②建立各类语音驱动模型（机器能够学习语音、唇形和各类表情参数之间的关系，进而得到多个以语音为基准的驱动模型。）
（驱动的角度越多，生成的数字人效果就会越自然越生动。将驱动模型组合起来，就能得到超过千种的数字人表情效果了。）

对于需对特定真人定制化的数字化虚拟数字人，部分公司会基于在通用驱动模型的基础上，结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。

第四步，有了模型就可以进行内容制作了，也就是实际使用上：
（1）首先，基于输入的语音或者用TTS技术将输入的文本转化为语音；
（2）再基于各类驱动模型，生成和当前所对应的唇动、表情、姿态等，逐帧组合图片；
（3）最后，把这些图片按照时间戳排序，再加上一定的NLP能力，就能渲染出数字人视频或实时互动了。

这部分以第一周实验的结果作为例子来介绍：选择的模型是wav2lip唇形合成模型，该模型根据输入的语音文件，实现对人物唇形的预测，将推理图片与时间戳结合生成视频。

wav2lip实现教程：wav2lip模型复现_买米当卡喜滋滋的博客-CSDN博客

wav2lip论文学习： wav2lip论文学习1.0（待完善）_买米当卡喜滋滋的博客-CSDN博客

2.3具有人的思想

最后是，通过技术让数字人具有人的思想，即可以识别外界环境、并能与人交流互动，比如如何生成非固定问题的回答内容，还有实时的肢体反应。

通过技术让数字人具有语音识别能力和自然语言处理能力，还要依赖知识图谱和预先设置知识库等。

3.数字人实现的技术路线

最后总结一下，实现数字人的完整技术路线。根据刚才的驱动方式，分为真人驱动和计算驱动，最根本的区别在于数字人交互时是否需要真人的参与。真人驱动型：需要真人进行表演，进而驱动数字人表演。计算驱动型：只需要提供文本内容，模型会根据文本来预测数字人的表情动作等表演内容。

结语

我的汇报结束，谢谢大家

相关知识

渲染

渲染是计算机图形学中的一个过程，它通过对3D场景中的各种元素如模型、光源、材质、纹理、相机等进行计算和组合，生成最终的2D图像的过程。渲染可以将3D场景中的模型、贴图、光影等元素以真实的方式呈现出来，让人们感受到身临其境的感觉。
在电影制作、游戏开发、建筑设计、工程制图等领域中都需要使用渲染技术。目前，计算机渲染已经发展为一门重要的学科。其研究方向包括了计算机图形学、计算机视觉、深度学习和人工智能等。
在虚拟现实领域，渲染技术被用于创建虚拟世界、场景和对象。渲染能够使用户得到身临其境的感觉。
渲染是计算机图形学中的一个重要概念，指的是将三维图像或场景转换为二维图像或者在屏幕上显示出来的过程。它可以按照渲染方式的不同分为实时渲染和非实时渲染两种。
1. 实时渲染：实时渲染（或称交互式渲染）常用于计算机游戏和交互式虚拟现实等需要实时处理图形的领域。实时渲染要求渲染速度非常快，以便在每秒钟更新大量图像并保持流畅体验。其原理是在每个时刻，仅渲染场景中能够被相机看到的区域，这可以通过裁剪技术和视锥体的应用来实现。2. 非实时渲染：非实时渲染（或称离线渲染）通常用于影视、动画等特效制作领域，其中渲染时间并不是关键因素。这种渲染通常采用光线跟踪等复杂的方法，以精细模型和真实的光照来渲染场景。其原理是通过模拟光线和材质表现能力来计算出每个像素的颜色和纹理，这可能需要大量的计算和存储能力。

简单交互

简单交互方面，虚拟数字人不适用于通用性、专业性、交互性过强的领域，会暴露其现有技术短板。国内目前多专注于特定细分市场，主要用于提供简单业务交互。在使用中，通过预置知识库、知识图谱、用户自主配置触发条件等等，虚拟数字人可以对用户的基本诉求进行行为和语音识别，并以固定话术进行回应。例如，虚拟主播可以以固定的几种话术欢迎进入直播间的消费者，并在消费者提及价格、存货、产品详情等意图时，根据事实情况进行回应。虚拟客服则可以借助NLP技术理解用户需求并进行解答。目前，追一科技、科大讯飞等均有配有行业知识库。
在教育、直播等此类场景中，尽管交互只占据虚拟数字人整体工作中的一部分，但在魔珐科技看来，问答的高转化率才是当前场景中的价值关键。追一科技同样认为互动沟通是虚拟数字人能力中最重要的部分。因此，对关键问题的识别交互能力对此类场景至关重要。为了解决这一问题，专注于此类场景的公司需要对相应的业务场景具有充足的行业知识积累，以提升其语言交互系统，并更好的对接原场景中的业务系统。