GMM

最新推荐文章于 2022-07-19 13:03:48 发布

5clap

最新推荐文章于 2022-07-19 13:03:48 发布

阅读量707

点赞数

分类专栏：说话人

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26064989/article/details/99406942

版权

说话人专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.在多元混合高斯模型中，如果使用全协方差矩阵，参数量为MxD^2,M是混合成分的个数，D是MFCC的维度,所以当参数量很大的时候，一般每个混合成分使用对角矩阵，以减少参数量
2.尽管GMM有众多的优势，但是它有一个严重的不足，那就是GMM不能有效地对呈非线性的数据进行建模，比如对一系列呈球面的点阵建模，如果选择合适的模型，只需要很少的参数，但是使用GMM需要很多对角阵或者全协方差矩阵，这也是为什么在使用GMM进行说话人模型建立的时候需要I-vector进行降维，因为GMM描述了太多的和问题无关重要的细节，现在再看为什么在文本相关的说话人识别中GMM的表现会比较好而在文本无关的时候会差很多，因为在文本无关的时候GMM会拟合很多文本信息，对于模型来说，由于是无监督的，所以文本信息和说话人信息是等地位的，所以用GMM来拟合模型这时候效果就会比较差，但如果文本无关的数据量足够大，对于DNN来说，由于是有label的训练，网络知道如何去扑捉说话人的信息而忽略掉文本信息。
3.早期的语音识别采用的是GMM-HMM模型，GMM在这里用来描述每个时刻的输出，即转移输出的概率表达。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。