论文：Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

最新推荐文章于 2022-10-10 21:27:40 发布

落地生根1314

最新推荐文章于 2022-10-10 21:27:40 发布

阅读量1.8k

点赞数 2

分类专栏： speech python Deep Learning 文章标签： Keyword Spotting 语音识别

本文链接：https://blog.csdn.net/qq_26369907/article/details/94657555

版权

本文提出了一种基于CTC和RNN的普通话关键词识别系统，输出标签为音节，对比了与基于HMM的KWS系统，表明端到端系统在性能提升的同时不增加计算成本，且音节输出优于汉字或音素。

摘要由CSDN通过智能技术生成

Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

摘要：基于隐马尔可夫模型(HMM)和神经网络(NN)的混合模型是当前关键字识别(KWS)系统声学建模的前沿。然而，由于中间语音表示的依赖性，如何有效地训练这样一个混合系统是一个挑战。在端到端语音识别系统的驱动下，提出了一种利用端到端方法直接预测语音单元后验的普通话KWS系统。该系统基于连接时间分类器(CTC)和递归神经网络(RNN)。本系统与其他基于CTC的KWS系统的主要区别在于输出字母及其对应的关键字搜索机制。我们使用普通话音节作为输出标签，而不是音素或字符。在普通话语音数据集上进行了大量的实验。实验结果表明:
1)与基于HMM的KWS系统相比，端到端KWS系统在不增加计算成本的情况下，实现了显著的改进。
2)我们的基于音节的端到端KWS系统比目前最先进的基于汉语上下文无关(CI)音素或汉字的系统具有更好的性能。

1.介绍
关键词检测是指在给定的语音中连续检测特定的关键词。广泛应用于语音监控、呼叫中心、语音控制等领域。KWS有许多方法，如无监督方法[2,3]、关键字/填充HMM[4,5]和基于大词汇量连续语音识别(LVCSR)的方法[6,7]。基于LVCSR的方法由于改变关键字的灵活性和对关键字和语音的先验知识要求较低而得到了广泛的应用。我们的工作重点是改进基于LVCSR的KWS系统。
得益于在LVCSR中成功使用DNN进行声学建模[6,8]，基于HMM-DNN的KWS系统得到了显著的改进。然而，基于HMM-DNN的系统仍然存在一些缺点，这将影响系统的性能。首先，系统建设非常复杂。它包含几个单独训练的组件，这些组件具有不一致的训练目标。因此，仅通过改进整个系统的一个组成部分来改进KWS系统是不方便的。其次，输入声特征序列的长度比输出标签序列的长度要长得多。为了解决这个问题，使用HMM映射输入和输出状态序列之间的关系。由于隐马尔可夫模型的遗传限制，该混合系统不能充分发挥神经网络的潜力，对[9]进行长序列建模。
基于上述原因，研究人员考虑建立LVCSR任务[10]的端到端声学模型。用单一的神经网络代替了传统的管道声模型。受[10]的启发，端到端声学建模技术也被应用到关键词识别领域[1,11,12]。它基于CTC和RNN的结合，不再需要HMM模型来进行标签对齐和预分割。从而大大简化了KWS声学模型的体系结构。CTC允许网络在输入序列[10]的任意点预测标签。
在本文中，我们提出的端到端KWS系统也是基于CTC和RNN相结合的。但它是为汉语普通话设计的，输出标签是音节而不是词音素或汉字。在汉语语音识别和关键字识别任务中，CTC输出标签的选择非常重要。最先进的KWS系统通常使用汉字[13,14]或语音元素[1,12]。在这些KWS系统中，关键字中的字符可能会被错误识别，因为有许多汉字具有相同的发音。KWS的性能将会下降，特别是对于那些没有语言模型的系统。因此，作为CTC输出标签，音素比汉字更合适。在本研究中，我们使用汉语音节作为输出标签，而不是在[1,12]中使用汉语音节的声母和韵母。[1,12]中的工作需要一个基于加权有限状态传感器(WFST)的

最低0.47元/天解锁文章

落地生根1314

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文：Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech摘要：基于隐马尔可夫模型(HMM)和神经网络(NN)的混合模型是当前关键字识别(KWS)系统声学建模的前沿。然而，由于中间语音表示的依赖性，如何有效地训练这样一个混合系统是一个挑战。在端到端语音识别系统的驱动下，提出了一种利用端到端方法直接预测语音单元后验的普通话K...
复制链接

扫一扫

专栏目录