\qquad 昨天的文章说的是不同的语音激活检测技术,传送门今天要说的是这个技术中间的具体的语音唤醒技术。语音唤醒技术到目前已经经过了三代的发展了。
第一代的技术很好理解,就是先构建一些模板,然后遇到语音,和模板进行匹配,进而识别是不是唤醒词。
KWS 就是keyword spotting.
这个就比较复杂,参考这个
第三种就是现在很火的神经网络,就是把前面的提取特征的工作,建模的工作,现在全部交给神经网络这个黑盒子来做。这个比较方便。
评价,语音唤醒的效果,有这几个方面:
结合昨天说的知识,我们可以知道这几项指标很难都好。现实中,还是希望更好的用户体验的同时来降低功耗,换句话或,唤醒率、误唤醒、响应时间比功耗水平的优先级更高。