语音交互中ONESHOT设备端实现

最新推荐文章于 2024-10-24 18:32:50 发布

coder.mark

最新推荐文章于 2024-10-24 18:32:50 发布

阅读量3.8k

点赞数 2

分类专栏：语音应用框架设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianizimark/article/details/109626655

版权

语音应用框架设计专栏收录该内容

3 篇文章

订阅专栏

一、目的

之前的几篇博文中我们介绍了语音交互框架、语音SDK设计，本篇博文中重点介绍语音交互中的ONESHOT设计。

那什么是语音ONESHOT呢？简单的讲，就是用户唤醒词与要识别的内容连说。

传统的语音交互模式一般是这种情形：

你好小乐（－－唤醒提示音播放－－提示音播放完毕－－）我想听歌－－－等待对话结果

　　　　　　　　播放提示音期间不拾音

此种交互方式的优点是语音唤醒后，由于先放唤醒提示音，此过程中设备不拾音，所以不会误拾音；当然缺点也很明显，对于急性子的用户，可能没等提示音播放完毕就开始说话，导致识别收到的音频头部缺失，导致用户体验很差。

那ONESHOT交互模式是怎样的呢？

你好小乐，我想听歌

　　　　此刻提示音也正在播放

呈现给用户的体验是，唤醒后直接说话，无论设备会不会播报唤醒提示音。

那么这种实现有哪些技术挑战呢？

设备必须支持录取播放回路音频，用于回声消除处理，并且此项处理必须能很好的消除回声。

二、分析

下面是两个实际音频录音，内容都是“你好小乐，我想听歌”

慢交互

慢交互

上图可以看到，唤醒和我想听歌之间有接近1s的静音，这个时间内对于传统交互模式下，有可能是在播放提示音。在ONESHOT交互模式下可能只是用户的说话停顿（突然忘词）。

快交互

快交互

上图可以看到，唤醒和我想听歌之间基本没有停顿，用户一句话说出意图。并且我想听歌这句话说出的时候设备也在播放提示音。

三、设计

那怎么一种ONESHOT才是一种合理的交互方式呢？作者认为ONESHOT模式下要同时兼容慢交互和快交互这两种情形。

由于一些技术瓶颈，例如唤醒某些时候可能会提前唤醒，导致唤醒时刻开始获取的音频数据可能包含部分唤醒残留音，如下图：

提前唤醒

上图可以看到唤醒残留音部分与我想听歌间有较长的静音，那么在设计ONESHOT的时候如果能够过滤掉残留音，只将后面的我想听歌的音频进行识别，一样可以完美的输出识别结果。

至于如何过滤残留音，相信聪明的你应该已经知道怎么做了，哈哈，这边就不详细描述了。

至此，如何实现ONESHOT交互方式也介绍完毕。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。