论文:Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

摘要: 基于隐马尔可夫模型(HMM)和神经网络(NN)的混合模型是当前关键字识别(KWS)系统声学建模的前沿。然而,由于中间语音表示的依赖性,如何有效地训练这样一个混合系统是一个挑战。在端到端语音识别系统的驱动下,提出了一种利用端到端方法直接预测语音单元后验的普通话KWS系统。该系统基于连接时间分类器(CTC)和递归神经网络(RNN)。本系统与其他基于CTC的KWS系统的主要区别在于输出字母及其对应的关键字搜索机制。我们使用普通话音节作为输出标签,而不是音素或字符。在普通话语音数据集上进行了大量的实验。实验结果表明:
1)与基于HMM的KWS系统相比,端到端KWS系统在不增加计算成本的情况下,实现了显著的改进。
2)我们的基于音节的端到端KWS系统比目前最先进的基于汉语上下文无关(CI)音素或汉字的系统具有更好的性能。

1.介绍
关键词检测是指在给定的语音中连续检测特定的关键词。广泛应用于语音监控、呼叫中心、语音控制等领域。KWS有许多方法,如无监督方法[2,3]、关键字/填充HMM[4,5]和基于大词汇量连续语音识别(LVCSR)的方法[6,7]。基于LVCSR的方法由于改变关键字的灵活性和对关键字和语音的先验知识要求较低而得到了广泛的应用。我们的工作重点是改进基于LVCSR的KWS系统。
得益于在LVCSR中成功使用DNN进行声学建模[6,8],基于HMM-DNN的KWS系统得到了显著的改进。然而,基于HMM-DNN的系统仍然存在一些缺点,这将影响系统的性能。首先,系统建设非常复杂。它包含几个单独训练的组件,这些组件具有不一致的训练目标。因此,仅通过改进整个系统的一个组成部分来改进KWS系统是不方便的。其次,输入声特征序列的长度比输出标签序列的长度要长得多。为了解决这个问题,使用HMM映射输入和输出状态序列之间的关系。由于隐马尔可夫模型的遗传限制,该混合系统不能充分发挥神经网络的潜力,对[9]进行长序列建模。
基于上述原因,研究人员考虑建立LVCSR任务[10]的端到端声学模型。用单一的神经网络代替了传统的管道声模型。受[10]的启发,端到端声学建模技术也被应用到关键词识别领域[1,11,12]。它基于CTC和RNN的结合,不再需要HMM模型来进行标签对齐和预分割。从而大大简化了KWS声学模型的体系结构。CTC允许网络在输入序列[10]的任意点预测标签。
在本文中,我们提出的端到端KWS系统也是基于CTC和RNN相结合的。但它是为汉语普通话设计的,输出标签是音节而不是词音素或汉字。在汉语语音识别和关键字识别任务中,CTC输出标签的选择非常重要。最先进的KWS系统通常使用汉字[13,14]或语音元素[1,12]。在这些KWS系统中,关键字中的字符可能会被错误识别,因为有许多汉字具有相同的发音。KWS的性能将会下降,特别是对于那些没有语言模型的系统。因此,作为CTC输出标签,音素比汉字更合适。在本研究中,我们使用汉语音节作为输出标签,而不是在[1,12]中使用汉语音节的声母和韵母。[1,12]中的工作需要一个基于加权有限状态传感器(WFST)的解码过程来将CTC输出序列映射到单词序列。但是,我们的系统可以直接将关键字映射到输出标签(中文音节),而不需要任何额外的解码或其他过程。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值