企业如何赢取“AI数字人”先机？

最新推荐文章于 2024-09-30 14:16:32 发布

Elevendayday

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量62

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/Elevendayday/article/details/131433492

版权

行业报告显示，国内AI数字人市场规模呈现高速增长趋势，预计到2026年将达102.4亿元人民币。当前AI技术下的数字人，已经开始以特有的创造性和交互性，融入我们的生活。但当下数字人还处在发展的初始阶段，距规模化落地还有一定距离。

海天瑞声作为AI产业链中的一员，推出的AI数字人数据解决方案，助力AI企业在数字人领域探索，至今已积累了丰富的项目经验，支持3D人脸/人体建模、面部捕捉采集、3D视觉手势采集等多个任务类型；覆盖手语主播、虚拟偶像、虚拟新闻主播、虚拟老师等诸多应用场景。

数字人已经覆盖到广泛的应用场景，例如北京冬奥会新闻播报数字人、百度智能云AI手语主播、腾讯3D手语数智人“聆语”、AI气象服务虚拟人“冯小殊”、美妆达人柳夜熙、虚拟学生华智冰、数字航天员小诤等等，让大众对于数字人有了更加直观的认知。
在这里插入图片描述
如何打造“数字人”？

数字人，是存在于数字世界的“人”，通过动作捕捉、三维建模、语音合成等技术高度还原真实人类，再借助AR/VR等终端呈现出来的立体“人”。AI数字人的必备能力包括拟人形象、交互能力、多终端部署能力以及决策能力。显然，AI数字人的打造，涉及语音识别、语音合成、自然语言处理、计算机视觉、多模态等多个技术领域。
在这里插入图片描述
计算机视觉

为了使AI数字人拥有人的外观，具有特定的相貌特征、面部表情，需要3D人脸建模、姿态建模，离不开2D图像/视频、3D图像、深度、红外数据的采集、标注等。

自然语言处理

通过对文本语料进行设计处理，将人类的自然语言转化为机器语言，让AI数字人充分理解并学会，才能拥有类似人的行为，能够用肢体动作更好地进行表达。

语音识别/合成

数字人不仅要匹配适合的音色，还要借助大规模高质量的语音训练数据进行学习，以实现更好的人机交互，能说会听，高效对话。

随着AI技术的成熟，为了实现更高的商业价值和社会价值，市场对于数字人产品的需求及标准不断提高。当前数字人大多处于L1-L3阶段，即依赖算法驱动肢体、姿态、口型、表情等，数字人可执行简单的决策和操作。未来数字人将实现L4-L5水平，由数字人自主进行决策、执行任务，完全实现智能化交互。

打造“数字人”面临的挑战？
在这里插入图片描述
技术

关键技术尚不够成熟。比如存在实时面部表情捕捉与还原精准度不足、语音识别在强噪声干扰及远场识别等方面还很难达到实用化要求等，需要提高数据的质量、训练模型的精度，以及加大研究力度以提高算法准确度等。

人才

人才供应体系不够完善。数字人技术跨度大，从制作端、技术端、到运营端，每一个环节的人才都不可或缺，比如动作捕捉师、模型师、发音人等，没有各方面人才的支撑，难以支撑产业良性运转。

标准

行业内缺乏统一技术标准和体系。越来越多的企业与资本进驻数字人领域，但由于数据来源、训练模型、算法技术等差异，产品质量良莠不齐。

安全

数字人本身需要大量的、差异化、匹配需求的训练数据用于学习，高质量、高效率的数据供给也是一个大的挑战。同时在应用的阶段也涉及大量数据信息，会带来一定的数据安全问题。

海天瑞声如何助力AI企业破局？

目前AI数字人市场差异化竞争趋势明显，入局企业大都基于自身技术优势以及客户群体覆盖的领域进行研发创新，相对应地，包括企业当前的产品基本功能、AI能力、市场及生态能力、商业化能力、用户体验以及未来发展愿景，都会影响其AI数字人产品及应用的发展走向。在这种背景下，企业如何抢占AI数字人的先发优势呢？
在这里插入图片描述
首要破局点，基于不同的AI数字人场景及应用需求，定制差异化的AI数据，以使AI数字人算法模型训练更加“聪明”。基于此，海天瑞声创新推出了AI数字人数据解决方案，服务覆盖手语主播、3D虚拟人像、虚拟主播、虚拟老师等众多场景需求，支持面部捕捉采集、3D视觉肢体采集、3D视觉手势采集、3D人脸及姿态建模等多个任务类型。
在这里插入图片描述