高斯混合模型（GMM，GOM）

章魚.

于 2022-10-16 17:44:21 发布

阅读量1.1k

点赞数

分类专栏：语音识别文章标签：聚类机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43284996/article/details/127349987

版权

语音识别专栏收录该内容

12 篇文章

订阅专栏

1.k-means聚类的缺点

k-means聚类使用欧式距离为距离函数时，其二维本质是，以每个簇质心为圆心圈出来的一个一个圆圈。用这个圆将原始数据进行截断分类，但是实际数据分布不一定全是标准的圆形，还可能是椭圆等。这使得它对许多数据的分类拟合效果不尽如人意：

1）类的形状不够灵活，拟合结果与实际相差较大，精度有限。

2）样本对于是否属于每一个簇是确定的，即只有是与否，应用中缺少鲁棒性。

2.高斯混合模型

基本思想：用多个高斯分布函数（正态分布）去近似任意形状的概率分布。将待聚类的数据点看成是分布的采样点，通过采样点利用类似极大似然估计的方法估计高斯分布的参数，求出参数（用EM算法求解）即得出了数据点对分类的隶属函数。

GMM 的概率密度函数:

$P\left ( x|\theta \right )=\sum_{k=1}^{K}P\left ( \theta_{k} \right )P\left ( x|\theta_{k} \right )$

其中；

1）K 为模型的个数，即聚类的个数。

2） $P\left ( \theta_{k} \right )$ 为数据样本属于第 k 个高斯分布的概率（先验分布，试验之前由相关知识得到的分布），其满足：

$\sum_{k=1}^{K}P\left ( \theta_{k} \right )=1$

3） $P\left ( x|\theta_{k} \right )$ 为第 k 个高斯的概率密度，其中：

$\theta_{k}=\left ( u_{k},\sigma _{k}^{2} \right )$

$u_{k}$ 为均值， $\sigma _{k}^{2}$ 为方差。

算法步骤：

1）设置 k 的个数，即初始化高斯混合模型的成分个数。初始化每个簇的高斯分布参数。

2）计算每个点属于每个高斯模型的概率。

3）根据每个点和其属于每个高斯模型的概率，重新计算每个高斯模型的参数 $\alpha _{k},\theta_{k}$ 。

4）重复迭代计算步骤2）3）直到收敛。

补充：

1）前提假设数据样本服从高斯分布

2）k-means是GMM的特例，即当GMM在所有维度的方差都一样的时候会呈现出圆形。

3）GMM每次迭代的计算量要比k-means大很多，故可以先用k-means（重复多次取最优）得到初始聚类中心点，作为GMM的初始值进行迭代。

博客等级

码龄7年

19
原创

36
点赞

225
收藏

13
粉丝

关注

私信

热门文章

分类专栏

最新评论

基于GMM—HMM的语音识别全过程
lecaixs: 文章很好!
C++ 引用和指针的区别详解
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题“C++ 引用和指针的区别详解”非常吸引人，内容肯定也非常有深度。作为一个读者，我非常期待能够从您的博客中学到更多有关C++引用和指针的知识。在下一步的创作中，我谦虚地建议您考虑深入探讨C++引用和指针的实际应用场景，或者对这两者的优缺点进行比较分析。这样的话，读者可以更好地理解何时应该使用引用或指针，并且在实际编程中能够做出更明智的选择。期待您的下一篇博客，继续加油！
隐马尔科夫模型（Hidden Markov Model，HMM）——前提
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。