华为云MetaStudio多模态数字人进展及挑战介绍

  //  

编者按:数字人作为AI能力集大成者,涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术,正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前的主要进展,包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等,同时介绍数字人领域的一些挑战。

文/李明磊

编辑/LiveVideoStack

大家好,我今天分享的是华为云MetaStudio数字人生产线在多模态数字人方面的进展及挑战。我是李明磊,目前担任华为云虚拟数字人技术负责人。我的分享分为以下几部分:

0f79db7bb1a11e49edbc937f6c246ec0.png

-01-

数字人背景介绍

69000383a2d1e2637f95b5febd157fc6.png

首先,AIGC是今年大热的话题。从PGC、UGC到AIGC,AI的一个核心价值是把专业内容制作的门槛降低了,让更多人都可以参与到专业内容的创作中来。

ac489c117b69d7330f90d7918875ab70.png

下面介绍一下数字人。什么是数字人?首先要有三个要素,第一是具备人的外观;第二是具备人的行为;最后是具备人的思想。

为什么称为多模态呢?数字人本身是AI集大成者,涉及视觉、音频、文本等多种模态。

840ff927bbddb09c549270c46e1c4a77.png

如图是数字人的一些典型应用,在千行百业已经开始落地。

3fab9006630ab9dfa22ebb70e7f6d294.png

从应用角度的数字人来分类,可以分为IP型数字人(主要为3D数字人)和服务型数字人(真人分身)。上图中间为数字人市场的规模和份额数据。

84ff1c3742ee16b1ae5ce5c8b9d4df66.png

接下来是数字人的价值。数字人可以对外树立品牌形象,并进行流量经营;对内可以提高效率,例如数字人分身直播带货,可以永久在线。

-02-

MetaStudio服务及案例介绍

288900aae161cc50dea691d242170722.png

接下来介绍华为云MetaStudio数字内容生产线。我们未来希望所有的内容都生于云、长于云、用于云。图中左侧是华为云在媒体领域的架构:

底层算力算子包括昇腾芯片,同时也兼容N卡;CPU有鲲鹏,也兼容x86。AI框架平台包括训练平台ModelArts、深度学习框架MindSpore以及TensorFlow和Pytorch等。

基于ModelArts,我们有训练加速引擎和推理加速引擎等。再往上一层是媒体引擎和盘古基础大模型。接着是媒体服务,包括云桌面、远程写作平台、数字人生产线等。

总体来讲,华为云可以提供数字人领域从底层到上层全栈服务

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 多模态特征交互研究的挑战主要包括: 1. 数据驱动:需要大量多模态数据来驱动研究。 2. 数据处理:需要高效的多模态数据预处理和整合技术。 3. 特征表示:需要高效的特征表示方法来描述不同模态的数据。 4. 算法设计:需要针对多模态数据的特点设计有效的算法。 ### 回答2: 多模态特征交互的研究挑战主要涉及三个方面。 首先,多模态特征交互需要克服不同模态数据之间的异质性。多模态数据包括图像、音频、视频等,它们具有不同的数据结构和表示方式,需要建立一种有效的桥梁来实现它们之间的交互。同时,不同模态之间的语义信息也可能存在差异,这需要一种对齐和融合的方法来将它们统一起来。 其次,多模态特征交互需要解决维度灾难的问题。随着模态数量的增加,多模态数据的维度呈指数级增长,这给特征提取和表示学习带来了巨大的挑战。如何在高维空间中准确地表示和提取有用的特征,是一个需要深入研究的难题。 最后,多模态特征交互需要解决数据稀疏性的问题。在实际应用中,不同模态的数据可能不完全可用或缺失,这导致了数据的稀疏性。如何通过多模态数据的补全和填充来解决稀疏性,以及如何利用稀疏数据进行特征交互,是一个亟待解决的问题。 综上所述,多模态特征交互的研究挑战包括异质性的处理、维度灾难的应对和数据稀疏性的解决。未来的研究需要致力于提出有效的方法来克服这些难题,并推动多模态特征交互在各个领域的应用。 ### 回答3: 多模态特征交互是研究不同传感器获取的多种类型信号之间的相互关联和交互关系。在这一领域中,有一些挑战需要克服。 首先,多模态特征的数据异构性是一个挑战。不同传感器获取的数据类型各异,包括图像、语音、运动传感器、文本等。这些传感器所测量的数据具有不同的特征和结构,因此需要进行有效的特征融合和降维方法,从而提取有用的信息。 其次,多模态数据的异质性是一个挑战。不同传感器所测量的数据可能具有不同的尺度、分布和表示形式,因此需要对数据进行标准化和归一化,以便更好地进行交互和融合。 第三,多模态特征的交互问题是一个挑战。不同传感器获取的数据可能在时间、空间和语义上存在不一致性,因此需要建立有效的方法和模型来处理这些数据之间的交互关系,以获得更准确的特征表示和结果预测。 此外,传感器的不准确性和噪声也是一个挑战。由于传感器本身的限制,获取的数据可能存在不准确性和噪声。这些噪声和误差可能会影响到特征提取和交互模型的准确性和可靠性,因此需要进行噪声建模和数据清洗处理。 最后,多模态特征交互的计算复杂度也是一个挑战多模态特征交互需要大量的计算和存储资源,尤其是在大规模和高维度数据集的情况下。因此,需要开发高效的算法和计算模型来应对这些计算复杂度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值