语音交互虚拟数字人技术难点及解决方案

最新推荐文章于 2025-05-04 11:34:29 发布

彭军辉

最新推荐文章于 2025-05-04 11:34:29 发布

阅读量2.2k

点赞数

文章标签：语音识别人工智能

原文链接：https://www.naixing.vip/statics/newsdetail.html?id=142

版权

目前数字人要解决的技术难点有：
1. 回答准确，理解自然语言口语白话。允许用户按自己想法表达，数字人依然能准确回答，这是语音交互数字人的最大难点。
2. 动作自然流畅，动作和语言匹配。要能分清楚否定、肯定、祈使等不同语气并配合相应动作和表情。比如说“不”的时候摇头，说“是”的时候点头。
3. 表情丰富和语言匹配并有一定的微表情。比如一个美女数字人看到帅哥会心情愉悦并会通过微表情变现出来。
4. 口型和语音匹配。

解决方案：
数字人是个人工智能产品，它需要在和人交流时尽量模仿人的表情、动作、口型和准确回答问题。需要动作表情协调、自然；回答准确并符合逻辑。数字人是个系统工程，而不是把一些功能机械拼凑。作为虚拟生命体，数字人按照自己的规则工作，而不是被用户操作的。它回答用户问题，也只是和用户的互动，而不是被用户操作。它会主动为用户服务，也会主动发起对话，而不是仅仅被动回答。它的表情动作都是按照自己的逻辑运行，和外界信号输入不是一一对应关系。它的口型和语音输出严格匹配。

1. 怎么对口型
对口型主要是口型动画和语音合成匹配。语音合成输出时，数字人输入相应的口型。有的语音技术公司的语音合成 SDK 提供时间戳和声母韵母接口。语音合成输出到某个时间点，调用相应的口型动画文件，这样就能做到准确对口型了。我们提供SDK可以按照声母韵母元音来对口型。

2. 问答和数字人大脑

让数字人准确回答是数字人大脑的工作。通过我们网站，用户可为数字人添加知识库。每条知识是由一个问题一个答案一个话题构成的。当用户输入一个问题，这个问题和知识库一条知识的问题语义相似时我们就会让数字人按照设定好的答案回答。同一个问题的多种问法在我们知识库只要存一条就行，我们算法自动按照语义匹配。我们算法支持处理复句、倒装句、省略句、否定句和普通句子的语义；能准确提取句子主干，理解句子的主谓宾结构。

如果理解我们知识库构建的规则，可以通过后台编辑出来多轮对话脚本。

每个用户可以构建多个知识库，每个知识库就是一个独立的数字人大脑。通过我们 API可以调用不同的数字人大脑。每个数字人大脑有自己独立的 ID。

数字人大脑 API 的使用方法在这里查看 https://www.naixing.vip/statics/api.html（数字人大脑 API、机器人大脑 API、机器人 API 在我们网站上是指同一个东西。Robotid 就是数字人ID。通过进入管理后台-数字人设置在列表里查看数字人 ID。）

3. 动作、表情和微表情

数字人是有生命的，它的动作表情微表情并不是完全和语言匹配的，也不是完全受外界信号刺激。

在研发中，我们暂时把动作和数字人语音输出做了强绑定。就是数字人说什么话，做相应的动作，表情和微表情同时配合。

我们在机器人 API 的 action 参数输出动作表情和微表情。如果有多个动作，一般用“;” 分割开。动作、表情、微表情列表见附件。多个动作需要连续输出，表情微表情和动作可以同时输出。

（未完待续）