《噪声环境下的语音关键词检索》阅读笔记
摘要:为了实现免手持语音识别的体验,语音识别系统需要持续不断地监听特定唤醒词语来开启语音识别任务,这个过程通常被定义为关键词检索(KDW)或者关键词识别(KWS)。在现实生活中,噪声干扰不可避免,噪声鲁棒性对关键词识别任务至关重要,因此我们为提高关键词的鲁棒性做了三方面的尝试。首先,将语音增强系统和关键词检测系统连接起来构成更复杂的系统,整个系统采用联合训练的方法。第二,提出了一种新的卷积循环神经网络。最后,为了进一步提升系统的性能,设计了特征转换模块。本文采用基于联合训练框架的CNN-MelCRN32关键词检测系统在测试集上的准确率为93.17%,与带噪训练的(基于multi-condition训练方法)基线系统,相比相对提升64.2%,显著的提高了关键词检测系统的噪声鲁棒性。
总结与展望
关键词检测系统在生活中中越来越重要,但在不同场景下,噪声以及无关人声的干扰,人们对于关键词检索系统要求的鲁棒性越来越高。除此之外,关键词在尽量保持“时刻监听”的状态,会给智能设备带来巨大的能量损耗,本文模型在设计时,以降低模型参数量和计算复杂度为原则。
虽然本文提出的方法在噪声鲁棒性能和计算资源占用上有很显著的优势,但鲁棒性关键词检测系统还有很大的优化和改进空间。
1.本文实用CNN模型,本身识别性能一般,18年提出基于残差网络的识别器有更好的识别性能并且计算资源占用更小。后续可更换识别器。
2.本文仅使用了单个增强特征,后续会尝试多种特征组合。
3.在增强实验中,使用的损失函数为均方误差。然而MSE会弱化低能量部分的重要性,而散类度的损失函数使用比值的形式避免了这个问题。
引言:
关键词检索系统的研究方法大致分为三类。基于模板匹配的方法:具有模型尺寸小,计算量少的优点但准确率比较低;基于关键字-补白模型的方法:会为关键字和非关键字分别建立模型,使用通过维特比解码算法来判断输入的音频中是否出现了关键字。这种方法需要大量对关键字和非关键字的训练;基于大词表连续语音识别的方法:源于语音识别任务,但也有不同之处,关键词检测系统的目标为孤立词。
深度学习的兴起,也深入到关键词检索领域,形成了一种端到端的主流模式,基于端到端的关键词检索系统包含三个部分:特征提取模块,神经网络模块和输出后验得分的计算模块。目前,评价关