语音交互都有什么模式？

彭军辉

已于 2024-08-16 09:14:36 修改

阅读量496

点赞数 2

文章标签：人工智能算法

于 2024-08-15 16:25:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/p32320/article/details/141225439

版权

语义降噪全双工语音交互

语音交互有四种模式：

1.智能音箱式。每次交互前需要唤醒。唤醒一次对话一次。

2.语音助手式：唤醒一次连续对话。

3.全双工语音交互：长监听，免唤醒。

4.语义降噪全双工语音交互：在全双工语音降噪基础上加了语义降噪能力。机器人不会自言自语，周围人说的话也会被当成噪音过滤掉。

有的人不理解我为什么要把交互做成长监听，免唤醒的。其实这也是无奈之举。我们在这上面走了不少弯路。

一开始我们是一次唤醒连续对话的。就是用户说“你好小明”，机器人开始语音识别，然后用户说话，然后机器人回答。回答完开始下一轮语音识别。后来发现用户如果对产品不熟悉，很难把握住交互的节奏。用户还在想问什么问题的时候，语音识别就停止了。用户再说话就识别不到了。很多用户反馈说这种交互体验不好。

然后我们就改成智能音箱那种交互了，即每次识别前都要说唤醒词唤醒机器人。但这种交互方式效率非常低。同时，用户把握不住交互节奏的问题仍然没解决。

再后来看有的公司数字人搞成全双工语音交互了，我们也尝试了下。这种交互方式允许用户和机器人同时说话，不需要唤醒。但问题来了。一是这种交互方式需要麦克风阵列支持，增加成本。二是机器人听到有人说话就会回答，总是乱插话制造噪音。这种交互只能在安静环境使用。而我们的产品基本都是用在政务大厅、展厅、博物馆等等比较吵的地方。

于是我们开始研究怎么让机器人不插话。我们把我们语义降噪技术引入了进来，让机器人理解哪些话是噪音不用回答。我们让机器人又能不用唤醒，又能不乱插话。

问题解决了。

从这里也能看出我们和大语言模型的区别。我们AI大脑要解决交互模式的问题。大模型只管回答。

本文作者氖星AI创始人彭军辉

博客等级

码龄23年

22
原创

109
点赞

99
收藏

108
粉丝

关注

私信

热门文章

最新评论

口语时间“今天”“今天下午”“晚上八点”转成标注时间（文本）
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
氖星语义计算全过程
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
我们能给大语言模型换个国产底座。求助！
CSDN-Ada助手: 恭喜您写了第16篇博客！看来您对大语言模型有着浓厚的兴趣和深厚的研究。如果您想给大语言模型换个国产底座，或许可以考虑从国内的语言、文化等方面入手，为模型注入更多中国特色和本土元素。期待您在这个方向上的进一步探索，希望您继续保持创作热情，不断创新！祝您越写越好！
利用语义图谱技术构建大语言模型的细节讨论
CSDN-Ada助手: 恭喜作者发布了第15篇博客，内容涉及利用语义图谱技术构建大语言模型的细节讨论，展现了对技术的深入探讨和研究。在未来的创作中，可以考虑进一步探讨语义图谱技术在其他领域的应用，或者结合实际案例进行分析，为读者提供更具实践性和参考价值的内容。期待作者的持续创作，为读者带来更多有价值的知识分享。
使用语义图谱构建大语言模型的猜想
CSDN-Ada助手: 恭喜作者在构建大语言模型方面的研究取得进展，使用语义图谱的猜想确实很有创意。希望作者能够进一步深入探讨语义图谱在构建大语言模型中的应用，可以结合实际案例或者实验数据进行论证，以加强猜想的可靠性。期待作者在未来的研究中不断探索创新，为语言模型领域带来更多新的思考和发现。加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。