基于DNN-HMM的语音识别技术

最新推荐文章于 2024-02-10 18:17:29 发布

a84222

最新推荐文章于 2024-02-10 18:17:29 发布

阅读量2.6k

点赞数 4

文章标签：人工智能前端大数据 ViewUI

原文链接：http://www.cnblogs.com/liuerdou/p/11332422.html

版权

本文介绍了基于DNN-HMM的语音识别技术，阐述了DNN相对于GMM的优点，如不需要声学特征分布假设，能更好地利用上下文信息，以及在大规模数据下高效训练的能力。DNN采用FBK特征，通过拼接帧获取更多信息。预训练方法，特别是深度自编码器神经网，有助于初始化网络参数，减少局部最优。ReLU激活函数和CNN结构的发展减少了预训练的重要性，增强了模型的性能和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于DNN-HMM的语音识别声学模型结构如下图所示，与传统的基于GMM-HMM的声学模型相比，唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点：

DNN不需要对声学特征所服从的分布进行假设；
DNN的输入可以采用连续的拼接帧，因而可以更好地利用上下文的信息；
DNN的训练过程可以采用随机优化算法来实现，而不是采用传统的批优化算法，因此当训练数据规模较大时也能进行非常高效的训练，显然，训练数据规模越大，所得到的声学模型就越精确，也就越有利于提高语音识别的性能；
在发音模式分类上，DNN这种区分式模型也要比GMM这种产生式模型更加合适。
DNN的输入是传统的语音波形经过加窗、分帧，然后提取出来的频谱特征，如MFCC、PLP或更底层的滤波器组(filter bank,FBK)声学特征等。FBK特征多利用Mel滤波器组在功率谱上进行滤波并计算对数能量，然后采用其规整值来表示。目前，FBK特征获得了广泛的成功，证明了原始语音频率对于基于DNN的语音识别技术的重要性。与传统的GMM采用单帧特征作为输入不同，DNN将相邻的若干帧进行拼接来得到一个包含更多信息的输入向量。研究表明，采用拼接帧作为输入是DNN相比GMM能获得明显性能提升的关键因素之一。

DNN输出向量的维度对应HMM中状态的个数，通常每一维输出对应一个绑定的triphone状态。训练时，为了得到每一帧语音在DNN上的目标输出值(标准值)，需要通过事先训练好的GMM-HMM识别系统在训练语料上进行强制对齐。即要训练一个DNN-HMM声学模型，首先需要训练一个GMM-HMM声学模型，并通过基于Viterbi算法的强制对其方法给每个语音帧打上一个HMM状态标签，然后以此状态标签，训练一个基于DNN训练算法的DNN模型。最后用DNN模型替换HMM模型中计算观察概率的GMM部分，但保留转移概率和初始概率等其他部分。

早期的DNN一般采用前馈神经网络结构，其本质上是一个包含多个隐层的多层感知机。它采用层级的结构，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。