语音识别--gmm-hmm思考

最新推荐文章于 2022-10-16 21:17:49 发布

cug_coffee

最新推荐文章于 2022-10-16 21:17:49 发布

阅读量431

点赞数

分类专栏：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cug_coffee/article/details/104585807

版权

语音识别专栏收录该内容

7 篇文章 0 订阅

订阅专栏

简单回顾一下今天所看的内容：

gmm-hmm

pdf：概率密度函数，在这里可以由gmm来估计，同样也可以用dnn来估计。
gmm：
高斯混合模型，单高斯函数，多高斯函数。
能拟合任何函数，这里会涉及到均值方差等变量
语音有短时平稳的特性，可以用高斯混合模型来估计；从而就会有概率密度函数。
hmm：隐马尔科夫模型，双马尔科夫链的过程。关键在于理解状态。
首先需要的说的马尔科夫链。当与时间无关时，就是齐次马尔科夫链。
隐马尔科夫模型的特性。
参数问题：
A: 转移概率[a_ij]
π：初始化概率[π_i]
B: 概率密度函数，离散连续的问题，这里就是概率密度函数了，这里就是上面的pdf了。gmm或者dnn来估计。
B: 在给定观察序列时，各个状态的概率是多少。即可以理解为gmm的输出或者dnn的输出。各个聚类的概率。
隐马模型的训练，在于估计转移概率，概率密度函数的各个参数。
gmm-hmm . -> dnn-hmm:
这里就是指概率密度函数的替换，也就是对参数估计的替换，即B的替换。
dnn-hmm . -> dnn-ctc:
这里是ctc替换了hmm，将序列的训练转换成了ctc模型。
ctc替换了hmm，在代码层面的表象上，就是指topo还掉了。
对于hmm，一个hmm，三状态，见拓扑hmm的表示。
对于ctc，一个token可以跳转到blk，blk不能跳回token了。
ctc-hmm核心在于序列训练的准则。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。