国内那几家语音唤醒技术做的比较好? 语音唤醒技术哪家强？

智能硬件语音唤醒技术解析

原创已于 2022-03-24 17:06:46 修改 · 3.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能

于 2022-03-24 11:09:15 首次发布

人工智能汇专栏收录该内容

4 篇文章

订阅专栏

本文探讨了语音唤醒技术的核心指标，包括唤醒率、误唤醒率、响应时长和功耗，并对比了不同服务商的性能。同时，分析了唤醒词的选择和实际应用中的测试要点，为智能硬件的语音交互功能提供参考。

编辑导语：

随着语音交互技术的日渐成熟，越来越多的智能硬件都选择增加语音能力作为产品卖点之一。但是，设备在进入语音交互工作状态的时候，需要先进行唤醒操作。

常见的唤醒语音交互的操作有按键或者触屏形式，但是，为了进一步降低学习成本和操作复杂度，也有不少的智能硬件选择通过语音唤醒的方式来激活交互功能。

本文将综合对比市面上各家提供的语音唤醒技术相关指标，可以帮助你快速掌握语音唤醒技术的情况。

一、语音唤醒技术的相关核心指标

1、唤醒率

语音唤醒的主要目的既然是激活设备进入交互工作状态，那么，唤醒率的高低就显得额外重要了。理论上，最好的状态就是我只要说一次唤醒词，设备就能立即响应。不过，受说话人与设备距离、发音标准、噪声等各种各样的因素，实际工作中比较难达到次次响应的完美工作状态。

一般来说，在近距离的安静场景下，市面上的技术都能够做到唤醒率在95%以上。

不过，消费者的实际使用场景是较复杂的，因此，需要模拟不同的应用场景进行实测，才能得到最后的唤醒率指标。

2、误唤醒率

指设备被非唤醒词唤醒的概率，误唤醒率越高，效果越不好。

大家在日常生活中可能会经常碰到，放在家里的智能音箱，大晚上莫名其妙答一句“我在”，把人吓个半死；还有如果家里用的智能电视，唤醒手机语音助手的时候，不是同一个唤醒词，电视也会蹦出一句“我在”。

这就是典型的误唤醒场景，一般用24小时被误唤醒多少次来衡量。

3、响应时长

主要是指用户说完唤醒词后，设备给出反馈的耗时，一般越短越好。

而反馈的形式则比较多样，可以通过语音应答响应、也可以通过亮屏或者指示灯闪烁响应。统计来看，如果是亮屏或者指示灯闪烁响应，控制在200ms以内用户体验较好；如果是语音应答响应，太快反而体验不好，一般控制在500ms左右更佳。

4、功耗

主要是针对电池供电设备，理论上越低越好，这样，设备的使用时长不会受到太大的影响。

因为唤醒的工作原理是会持续检测声音中是否包含唤醒词的特定片段，所以，会持续耗电。

为了进一步降低功耗，部分产品也会采取DSP来完成语音唤醒，再通过AP层兜底的模式，保证唤醒和功耗的均衡。

总结：语音唤醒的技术指标，除了与算法相关之外，还与智能硬件的结构设计、芯片算力、使用场景等息息相关。最后的实际效果，则应以实际测试效果为准，参考下图：

二、语音唤醒技术对比

该对比信息均从互联网公开渠道获取，相关信息来源于提供商官网公开信息，如其官网有更新，请以更新信息为准。（PS：百度搜索🔍“语音唤醒”）

从上面的对比上来看，我们可以发现几点信息：

大部分服务商都会提供唤醒词评估服务。
在系统支持上，安卓和iOS比较主流。不过，越来越多的语音唤醒功能开始应用在了穿戴设备上，是否支持Linux和Rtos系统也至关重要。
在唤醒词上，基本都支持中文唤醒词，毕竟，大部分的产品都是面向国人，中文普通话是主要的语言。不过，也有服务商，能够额外支持英文、数字、方言唤醒词，市场更加细分。
唤醒指标上，近场唤醒率基本都在95%以上。不过，正如前面分析的那样，唤醒跟很多因素相关，最后在产品上的实测值才具有代表性。

三、唤醒词的区别

唤醒词的定义实际是比较广泛，至少包含了四种使用场景：品牌唤醒词（如，小飞小飞）、离线命令词（如，我要听周杰伦的歌）、云端命令词（如，我要听周杰伦的歌）、免唤醒词（如，下一首、暂停）。这些使用场景，实际上都是使用了唤醒词的原理，只是唤醒后执行不同的动作。

四、语音唤醒项目实施要点

1、唤醒词评估

大部分服务商都提供了唤醒词评估服务，不过，有部分服务商对唤醒词有一定的限制。因此，在选择唤醒词的时候，需要充分考虑品牌、发音特点、词语等因素，综合确定最终的唤醒词。

2、确认测试环境和工具

以以往交付的唤醒项目来看，主要测试的环境包括：外噪场景测试、自噪场景测试、安静场景测试和误唤醒测试。

3、声音采集

根据产品主要面向的使用人群，采集真人发音音频。

示例：【某某投影仪音频采集需求】

采集人数200人，总音频2000句
男女比=1:1
一人10句
语速快：中：慢=1:3:1
年龄儿童：青年：中年=1:3:1
区域：北上广深
普通话

4、测试音频处理

包括去除破音的音频、去除时长>1.7s的测试音频、音频幅度归一化。

5、数据记录表

根据实测结果，如实填写表格中对应测试结果，完成项目验收。

如果需要更深入地咨询了解，可添加笔者V：HolaAI，详细交流。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。