gmm聚类python_Spark 2.1.0 入门:高斯混合模型(GMM)聚类算法(Python版)

该博客介绍了如何使用Spark 2.1.0的ML库进行高斯混合模型(GMM)聚类。GMM是一种概率式聚类方法,属于生成式模型,它假设数据由多个多元高斯分布生成。通过期望-最大化(EM)算法进行参数估计,以完成模型训练。博客展示了如何设置超参数、训练模型并分析结果,以鸢尾花数据集为例,解释了GMM如何提供每个样本属于每个簇的软聚类概率。
摘要由CSDN通过智能技术生成

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!

高斯混合模型(Gaussian Mixture Model, GMM) 是一种概率式的聚类方法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的。具体地,给定类个数K,对于给定样本空间中的样本

,一个高斯混合模型的概率密度函数可以由K个多元高斯分布组合成的混合分布表示:

其中,

是以

为均值向量,

为协方差矩阵的多元高斯分布的概率密度函数,可以看出,高斯混合模型由K个不同的多元高斯分布共同组成,每一个分布被称为高斯混合模型中的一个 成分(Component), 而

为第i个多元高斯分布在混合模型中的 权重 ,且有

假设已有一个存在的高斯混合模型,那么,样本空间中的样本的生成过程即是:以

作为概率(实际上,权重可以直观理解成相应成分产生的样本占总样本的比例),选择出一个混合成分,根据该混合成分的概率密度函数,采样产生出相应的样本。

那么,利用GMM进行聚类的过程是利用GMM生成数据样本的“逆过程”:给定聚类簇数K,通过给定的数据集,以某一种 参数估计 的方法,推导出每一个混合成分的参数(即均值向量

、协方差矩阵

和权重

),每一个多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值