//
编者按:数字人作为AI能力集大成者,涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术,正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前的主要进展,包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等,同时介绍数字人领域的一些挑战。
文/李明磊
编辑/LiveVideoStack
大家好,我今天分享的是华为云MetaStudio数字人生产线在多模态数字人方面的进展及挑战。我是李明磊,目前担任华为云虚拟数字人技术负责人。我的分享分为以下几部分:
-01-
数字人背景介绍
首先,AIGC是今年大热的话题。从PGC、UGC到AIGC,AI的一个核心价值是把专业内容制作的门槛降低了,让更多人都可以参与到专业内容的创作中来。
下面介绍一下数字人。什么是数字人?首先要有三个要素,第一是具备人的外观;第二是具备人的行为;最后是具备人的思想。
为什么称为多模态呢?数字人本身是AI集大成者,涉及视觉、音频、文本等多种模态。
如图是数字人的一些典型应用,在千行百业已经开始落地。
从应用角度的数字人来分类,可以分为IP型数字人(主要为3D数字人)和服务型数字人(真人分身)。上图中间为数字人市场的规模和份额数据。
接下来是数字人的价值。数字人可以对外树立品牌形象,并进行流量经营;对内可以提高效率,例如数字人分身直播带货,可以永久在线。
-02-
MetaStudio服务及案例介绍
接下来介绍华为云MetaStudio数字内容生产线。我们未来希望所有的内容都生于云、长于云、用于云。图中左侧是华为云在媒体领域的架构:
底层算力算子包括昇腾芯片,同时也兼容N卡;CPU有鲲鹏,也兼容x86。AI框架平台包括训练平台ModelArts、深度学习框架MindSpore以及TensorFlow和Pytorch等。
基于ModelArts,我们有训练加速引擎和推理加速引擎等。再往上一层是媒体引擎和盘古基础大模型。接着是媒体服务,包括云桌面、远程写作平台、数字人生产线等。
总体来讲,华为云可以提供数字人领域从底层到上层全栈服