火山引擎虚拟数字人技术与应用

导读:火山引擎正在打造完善的虚拟数字人技术和应用体系,那么火山引擎是如何定义虚拟数字人的呢?火山引擎 2D 虚拟数字人和 3D 数字人采用了怎样先进的技术?火山引擎数字人有哪些应用和前景展望?今天我们就来一起探秘火山引擎虚拟数字人技术与应用。

今天的介绍会围绕下面五点展开:

  • 火山引擎虚拟数字人简介

  • 2D 数字人技术体系

  • 3D 数字人技术体系

  • 火山引擎虚拟数字人应用

  • 火山引擎虚拟数字人展望


分享嘉宾|樊博 字节跳动AI-Lab智能语音 算法研究员

编辑整理|张续然 中睿信

出品社区|DataFun


01/火山引擎虚拟数字人简介

首先介绍一下火山引擎虚拟数字人的基本情况。

1. 火山引擎虚拟数字人定义

火山引擎虚拟数字人是以虚拟数字人形式代替真人员工和客户沟通,提供可视化、智能化的交互服务,为企业提供高度拟人化的服务型数字员工。

虚拟数字人中的“虚拟”指数字人能够通过不同媒介存在于虚拟世界,包括移动端、PC 端和 VR 设备等。虚拟数字人中的“数字”指数字人具有数字化的外表,通过多模态技术赋予其智能,这里的智能包括聆听、表达、交互和感知四大类:

  • 聆听:语音增强、语音识别、声纹识别、语种识别等

  • 表达:语音合成、跨语言合成、多方言合成、语音变声等

  • 交互:自然语言理解、机器翻译、问答系统等

  • 感知:活体检测、人脸识别、情感识别等

虚拟数字人中的“人”指通过多模态技术赋能的数字人的行为、技能高度拟人化。

2. 火山引擎虚拟数字人分类

火山引擎虚拟数字人目前可以分为 AI 智能驱动型数字人中之人驱动型数字人。AI 智能驱动型数字人是基于各种 AI 多模态技术打造的数字人。中之人驱动型数字人是基于真人驱动技术打造的数字人。当前火山引擎虚拟数字人的研究重点方向是 AI 智能驱动型数字人。

AI 智能驱动型数字人按能力划分可以分为播报型数字人、交互型数字人和感知型数字人,按形象类别划分可以分为 2D 数字人和 3D 数字人。

在能力方面,播报型数字人仅具备表达能力,交互型数字人具备聆听、表达和交互的能力,感知型数字人在交互型数字人的基础上增加感知能力。

在形象类别方面,火山引擎支持 2D 真人、3D 卡通和 3D 超写实形象。旨在通过丰富的形象覆盖更多样的落地场景。

02/2D 数字人技术体系

1. 2D 数字人技术全景

2D 数字人技术体系分为头部、肢体和系统三大部分。头部层面主要包括驱动算法和定

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值