华为云MetaStudio多模态数字人进展及挑战介绍

LiveVideoStack_

于 2023-08-11 08:10:32 发布

阅读量1.6k

点赞数

文章标签：华为云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132241836

版权

华为云李明磊在LiveVideoStackCon分享了MetaStudio在数字人领域的进展，包括2D和3D数字人的生成、驱动及情感表达技术。数字人已应用于金融、政务等领域，通过AI降低内容创作门槛。华为云提供数字人生成、模型驱动等服务，助力企业实现24小时直播、智能交互等场景。目前面临的挑战包括构建超写实数字人、情感协同表达和动作迁移等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

//

编者按：数字人作为AI能力集大成者，涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术，正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前的主要进展，包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等，同时介绍数字人领域的一些挑战。

文/李明磊

编辑/LiveVideoStack

大家好，我今天分享的是华为云MetaStudio数字人生产线在多模态数字人方面的进展及挑战。我是李明磊，目前担任华为云虚拟数字人技术负责人。我的分享分为以下几部分：

-01-

数字人背景介绍

首先，AIGC是今年大热的话题。从PGC、UGC到AIGC，AI的一个核心价值是把专业内容制作的门槛降低了，让更多人都可以参与到专业内容的创作中来。

下面介绍一下数字人。什么是数字人？首先要有三个要素，第一是具备人的外观；第二是具备人的行为；最后是具备人的思想。

为什么称为多模态呢？数字人本身是AI集大成者，涉及视觉、音频、文本等多种模态。

如图是数字人的一些典型应用，在千行百业已经开始落地。

从应用角度的数字人来分类，可以分为IP型数字人（主要为3D数字人）和服务型数字人（真人分身）。上图中间为数字人市场的规模和份额数据。

接下来是数字人的价值。数字人可以对外树立品牌形象，并进行流量经营；对内可以提高效率，例如数字人分身直播带货，可以永久在线。

-02-

MetaStudio服务及案例介绍

接下来介绍华为云MetaStudio数字内容生产线。我们未来希望所有的内容都生于云、长于云、用于云。图中左侧是华为云在媒体领域的架构：

底层算力算子包括昇腾芯片，同时也兼容N卡；CPU有鲲鹏，也兼容x86。AI框架平台包括训练平台ModelArts、深度学习框架MindSpore以及TensorFlow和Pytorch等。

基于ModelArts，我们有训练加速引擎和推理加速引擎等。再往上一层是媒体引擎和盘古基础大模型。接着是媒体服务，包括云桌面、远程写作平台、数字人生产线等。

总体来讲，华为云可以提供数字人领域从底层到上层全栈服

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。