gmm聚类python_Spark 2.1.0 入门：高斯混合模型(GMM)聚类算法(Python版)

weixin_39834328

于 2020-12-11 04:03:01 发布

阅读量1.2k

点赞数

文章标签： gmm聚类python

该博客介绍了如何使用Spark 2.1.0的ML库进行高斯混合模型(GMM)聚类。GMM是一种概率式聚类方法，属于生成式模型，它假设数据由多个多元高斯分布生成。通过期望-最大化(EM)算法进行参数估计，以完成模型训练。博客展示了如何设置超参数、训练模型并分析结果，以鸢尾花数据集为例，解释了GMM如何提供每个样本属于每个簇的软聚类概率。

摘要由CSDN通过智能技术生成

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！

高斯混合模型(Gaussian Mixture Model, GMM) 是一种概率式的聚类方法，属于生成式模型，它假设所有的数据样本都是由某一个给定参数的多元高斯分布所生成的。具体地，给定类个数K，对于给定样本空间中的样本

，一个高斯混合模型的概率密度函数可以由K个多元高斯分布组合成的混合分布表示：

其中，

是以

为均值向量，

为协方差矩阵的多元高斯分布的概率密度函数，可以看出，高斯混合模型由K个不同的多元高斯分布共同组成，每一个分布被称为高斯混合模型中的一个成分(Component)，而

为第i个多元高斯分布在混合模型中的权重，且有

。

假设已有一个存在的高斯混合模型，那么，样本空间中的样本的生成过程即是：以

作为概率(实际上，权重可以直观理解成相应成分产生的样本占总样本的比例)，选择出一个混合成分，根据该混合成分的概率密度函数，采样产生出相应的样本。

那么，利用GMM进行聚类的过程是利用GMM生成数据样本的“逆过程”：给定聚类簇数K，通过给定的数据集，以某一种参数估计的方法，推导出每一个混合成分的参数(即均值向量

、协方差矩阵

和权重

)，每一个多

最低0.47元/天解锁文章

weixin_39834328

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。