语音交互都有什么模式?

语义降噪全双工语音交互

语音交互有四种模式:

1.智能音箱式。每次交互前需要唤醒。唤醒一次对话一次。

2.语音助手式:唤醒一次连续对话。

3.全双工语音交互:长监听,免唤醒。

4.语义降噪全双工语音交互:在全双工语音降噪基础上加了语义降噪能力。机器人不会自言自语,周围人说的话也会被当成噪音过滤掉。

有的人不理解我为什么要把交互做成长监听,免唤醒的。其实这也是无奈之举。我们在这上面走了不少弯路。

一开始我们是一次唤醒连续对话的。就是用户说“你好小明”,机器人开始语音识别,然后用户说话,然后机器人回答。回答完开始下一轮语音识别。后来发现用户如果对产品不熟悉,很难把握住交互的节奏。用户还在想问什么问题的时候,语音识别就停止了。用户再说话就识别不到了。很多用户反馈说这种交互体验不好。

然后我们就改成智能音箱那种交互了,即每次识别前都要说唤醒词唤醒机器人。但这种交互方式效率非常低。同时,用户把握不住交互节奏的问题仍然没解决。

再后来看有的公司数字人搞成全双工语音交互了,我们也尝试了下。这种交互方式允许用户和机器人同时说话,不需要唤醒。但问题来了。一是这种交互方式需要麦克风阵列支持,增加成本。二是机器人听到有人说话就会回答,总是乱插话制造噪音。这种交互只能在安静环境使用。而我们的产品基本都是用在政务大厅、展厅、博物馆等等比较吵的地方。

于是我们开始研究怎么让机器人不插话。我们把我们语义降噪技术引入了进来,让机器人理解哪些话是噪音不用回答。我们让机器人又能不用唤醒,又能不乱插话。

问题解决了。

从这里也能看出我们和大语言模型的区别。我们AI大脑要解决交互模式的问题。大模型只管回答。

本文作者 氖星AI创始人彭军辉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值