用于远场唤醒词识别的带对齐损失的多任务学习方案
摘要
实际应用中,远场环境是经常遇到的,并且它会由于房间混响和各种噪声而导致性能下降。
基线方法:卷积神经网络(使用远场和近场语音的混合数据进行训练)
介绍
KWS也称为唤醒词检测,是一项在连续语音信号中检测预定义关键字出现的任务。
要求:
- 唤醒词检测要有较小的内存和计算成本
- 在复杂环境(噪声或远场环境)中有较高的检测精度和鲁棒性
方法:
- 隐马尔科夫模型(HMM),被用来构造关键字模型和填充/背景模型。
- 高斯混合模型
- 深度神经网络
- 延迟神经网络(TDNN)
近年来,更多的研究关注DNN的关键词识别系统,其性能优于传统方法。
然而,在许多实际应用中,KWS系统的性能往往在低信噪比和远场条件下下降。
本文提出了一种基于KWS对齐损失的多任务学习训练方案。
基于KWS系统的卷积神经网络

三个主要组成部分:特征提取,网络预测和置信度计算。
- 卷积核大小为(3,3),步长为(1,1)
- 最大池化核大小(2,2)
- 最后加入两个全连接层和softmax损失来进行预测
在训练处理之后,声学特征序列被映射为后验概率序列。
- 定义一个滑动窗口来计算分数
- 用x={ x1,x2,x3,...xTsx_1,x_2,x_3,...x_{Ts}x1,x<

最低0.47元/天 解锁文章
504

被折叠的 条评论
为什么被折叠?



