语音识别基本原理介绍--gmm-hmm中训练的完整版

最新推荐文章于 2024-08-05 10:55:11 发布

wbglearn

最新推荐文章于 2024-08-05 10:55:11 发布

阅读量2.8w

点赞数 4

分类专栏：语音文章标签： gmm-hmm kaldi 语音识别 clustering

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wbgxx333/article/details/39006885

版权

本文详细介绍了GMM-HMM在语音识别中的训练过程，包括数据预处理、模型初始化、单音素模型训练、上下文相关三音素模型的构建，并探讨了嵌入式训练中的Viterbi对齐和最大似然比更新。通过聚类算法优化状态绑定，最终得到三音素模型。

摘要由CSDN通过智能技术生成

看了几天了，结合之前看kaldi里的训练，现在我觉得可以稍微清楚的解释这个训练过程，后面的时间赶紧看解码部分。希望你可以有所收获。

这次我们从头开始，虽然mfcc特征大家都知道，但是为了完整性还是说下吧。希望这是最后一次写训练的过程。

1.数据准备我就不说了，直接说提特征，一般来说提mfcc特征。当然在gmm-hmm中一般都是mfcc特征。mfcc特征的具体流程，这里贴一张图，大家可以参考。htk或者kaldi里都有提特征的脚本，也有源码，相信这个应该都不算难事了。

这个过程也比较清楚，这里就不多说了。

2.这里的特征提完了，接下里就是训练的事情。这里先做初始化的步骤，第一个初始化就是高斯模型的均值和方差，这里我们就用整个训练数据集的均值和方差来代替。注意这里应该是单高斯模型，用单高斯模型对每一帧数据进行建模，记住是每一帧（这里可能有错，也许是利用某个状态的观察变量来建立一个高斯）。还有一个初始化就是隐马尔科夫的参数，一般对音素用三个状态，这里除了开始和结束的三个。静音用5个状态。下图是一个音素的例子：

最低0.47元/天解锁文章

关注

4
点赞
踩
57

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。