导读:火山引擎正在打造完善的虚拟数字人技术和应用体系,那么火山引擎是如何定义虚拟数字人的呢?火山引擎 2D 虚拟数字人和 3D 数字人采用了怎样先进的技术?火山引擎数字人有哪些应用和前景展望?今天我们就来一起探秘火山引擎虚拟数字人技术与应用。
今天的介绍会围绕下面五点展开:
-
火山引擎虚拟数字人简介
-
2D 数字人技术体系
-
3D 数字人技术体系
-
火山引擎虚拟数字人应用
-
火山引擎虚拟数字人展望
分享嘉宾|樊博 字节跳动AI-Lab智能语音 算法研究员
编辑整理|张续然 中睿信
出品社区|DataFun
01/火山引擎虚拟数字人简介
首先介绍一下火山引擎虚拟数字人的基本情况。
1. 火山引擎虚拟数字人定义
火山引擎虚拟数字人是以虚拟数字人形式代替真人员工和客户沟通,提供可视化、智能化的交互服务,为企业提供高度拟人化的服务型数字员工。
虚拟数字人中的“虚拟”指数字人能够通过不同媒介存在于虚拟世界,包括移动端、PC 端和 VR 设备等。虚拟数字人中的“数字”指数字人具有数字化的外表,通过多模态技术赋予其智能,这里的智能包括聆听、表达、交互和感知四大类:
-
聆听:语音增强、语音识别、声纹识别、语种识别等
-
表达:语音合成、跨语言合成、多方言合成、语音变声等
-
交互:自然语言理解、机器翻译、问答系统等
-
感知:活体检测、人脸识别、情感识别等
虚拟数字人中的“人”指通过多模态技术赋能的数字人的行为、技能高度拟人化。
2. 火山引擎虚拟数字人分类
火山引擎虚拟数字人目前可以分为 AI 智能驱动型数字人和中之人驱动型数字人。AI 智能驱动型数字人是基于各种 AI 多模态技术打造的数字人。中之人驱动型数字人是基于真人驱动技术打造的数字人。当前火山引擎虚拟数字人的研究重点方向是 AI 智能驱动型数字人。
AI 智能驱动型数字人按能力划分可以分为播报型数字人、交互型数字人和感知型数字人,按形象类别划分可以分为 2D 数字人和 3D 数字人。
在能力方面,播报型数字人仅具备表达能力,交互型数字人具备聆听、表达和交互的能力,感知型数字人在交互型数字人的基础上增加感知能力。
在形象类别方面,火山引擎支持 2D 真人、3D 卡通和 3D 超写实形象。旨在通过丰富的形象覆盖更多样的落地场景。
02/2D 数字人技术体系
1. 2D 数字人技术全景
2D 数字人技术体系分为头部、肢体和系统三大部分。头部层面主要包括驱动算法和定