《噪声环境下的语音关键词检索》阅读笔记
摘要:为了实现免手持语音识别的体验,语音识别系统需要持续不断地监听特定唤醒词语来开启语音识别任务,这个过程通常被定义为关键词检索(KDW)或者关键词识别(KWS)。在现实生活中,噪声干扰不可避免,噪声鲁棒性对关键词识别任务至关重要,因此我们为提高关键词的鲁棒性做了三方面的尝试。首先,将语音增强系统和关键词检测系统连接起来构成更复杂的系统,整个系统采用联合训练的方法。第二,提出了一种新的卷积循环神经网络。最后,为了进一步提升系统的性能,设计了特征转换模块。本文采用基于联合训练框架的CNN-MelCRN32关键词检测系统在测试集上的准确率为93.17%,与带噪训练的(基于multi-condition训练方法)基线系统,相比相对提升64.2%,显著的提高了关键词检测系统的噪声鲁棒性。
总结与展望
关键词检测系统在生活中中越来越重要,但在不同场景下,噪声以及无关人声的干扰,人们对于关键词检索系统要求的鲁棒性越来越高。除此之外,关键词在尽量保持“时刻监听”的状态,会给智能设备带来巨大的能量损耗,本文模型在设计时,以降低模型参数量和计算复杂度为原则。
虽然本文提出的方法在噪声鲁棒性能和计算资源占用上有很显著的优势,但鲁棒性关键词检测系统还有很大的优化和改进空间。
1.本文实用CNN模型,本身识别性能一般,18年提出基于残差网络的识别器有更好的识别性能并且计算资源占用更小。后续可更换识别器。
2.本文仅使用了单个增强特征,后续会尝试多种特征组合。
3.在增强实验中,使用的损失函数为均方误差。然而MSE会弱化低能量部分的重要性,而散类度的损失函数使用比值的形式避