语义降噪全双工语音交互
语音交互有四种模式:
1.智能音箱式。每次交互前需要唤醒。唤醒一次对话一次。
2.语音助手式:唤醒一次连续对话。
3.全双工语音交互:长监听,免唤醒。
4.语义降噪全双工语音交互:在全双工语音降噪基础上加了语义降噪能力。机器人不会自言自语,周围人说的话也会被当成噪音过滤掉。
有的人不理解我为什么要把交互做成长监听,免唤醒的。其实这也是无奈之举。我们在这上面走了不少弯路。
一开始我们是一次唤醒连续对话的。就是用户说“你好小明”,机器人开始语音识别,然后用户说话,然后机器人回答。回答完开始下一轮语音识别。后来发现用户如果对产品不熟悉,很难把握住交互的节奏。用户还在想问什么问题的时候,语音识别就停止了。用户再说话就识别不到了。很多用户反馈说这种交互体验不好。
然后我们就改成智能音箱那种交互了,即每次识别前都要说唤醒词唤醒机器人。但这种交互方式效率非常低。同时,用户把握不住交互节奏的问题仍然没解决。
再后来看有的公司数字人搞成全双工语音交互了,我们也尝试了下。这种交互方式允许用户和机器人同时说话,不需要唤醒。但问题来了。一是这种交互方式需要麦克风阵列支持,增加成本。二是机器人听到有人说话就会回答,总是乱插话制造噪音。这种交互只能在安静环境使用。而我们的产品基本都是用在政务大厅、展厅、博物馆等等比较吵的地方。
于是我们开始研究怎么让机器人不插话。我们把我们语义降噪技术引入了进来,让机器人理解哪些话是噪音不用回答。我们让机器人又能不用唤醒,又能不乱插话。
问题解决了。
从这里也能看出我们和大语言模型的区别。我们AI大脑要解决交互模式的问题。大模型只管回答。
本文作者 氖星AI创始人彭军辉