高斯混合模型聚类_一元高斯分布、多元高斯分布、高斯混合模型

本文详细介绍了高斯混合模型(GMM)在聚类中的应用,从一元高斯分布扩展到多元高斯分布,再到相关多元高斯分布。讲解了如何通过线性组合多个高斯分布形成混合高斯分布,以及GMM的参数估计,特别是利用EM算法进行求解。文章还提到了最大似然估计和Jensen不等式在GMM中的作用,并提供了E步骤和M步骤的推导及代码实现概述。
摘要由CSDN通过智能技术生成
多元高斯分布(The Multivariate normal distribution)​www.cnblogs.com
d8af1e0df728477639202bc6155e8033.png

先补一下基础知识:

c33a3183b7430b2c9396288b16a01372.png

这是我们小学就接触过的一元高斯分布,公式为:

一个y(也就是f(x))对应一个维度的x

现在我们将高斯分布扩展到多维空间,简单说就是有x1,x2,x3。。。xn等多个维度。当我们假设多维空间的每一个空间之间完全独立,则独立的n元高斯分布为:

其中:

4b93349b6c6717bfd45d007508343c60.png

xi表示第i维空间,或者简单说就是第i个特征。

61887c48da218466877117783d1852a1.png

独立二元高斯分布图如上可以看到上述的几何图的每一个纵切面都是一个一元高斯分布。

如果不同维度之间存在关联,则称为相关多元正态分布,在形式上:

和独立多元高斯分布基本一样,不同的地方在于:

相关多元高斯分布的

不再是只有对角存在特征与自身的协方差的形式,而是不同特征之间的协方差值:

f066a2becc2bac9de34bfcbddf09f4c5.png

需要注意的是,在一元高斯的情况下,我们可以用特征的均值与方差来描述这个单元的高斯分布,但是多元高斯则使用的是所有特征的均值向量与协方差均值来描述多元的高斯分布。

显然相关多元高斯分布相对于独立多元高斯分布更加符合客观世界的规律,一般特征之间很难完全独立。


混合高斯分布就是讲多个高斯分布通过线性组合的方式加在一起:

机器学习算法总结(六)--EM算法与高斯混合模型 - 微笑sun - 博客园​www.cnblogs.com
25e8b029f56017124102c6a5c6e479ca.png

高斯混合模型就是由多个高斯模型组合在一起的混合模型(可以理解为多个高斯分布函数的线性组合,理论上高斯混合模型是可以拟合任意类型的分布,另外需要注意的是,通过查阅sklearn的gmm的代码可以知道,面对多维度的数据的情况下,GMM使用的是相关多元高斯分布),例如对于下图中的数据集如果用一个高斯模型来描述的话显然是不合理的:

e92d4a8c700eb522f170c1f3db1d5537.png

对于上图如果我们用两个高斯模型来描述,则如下

eb15063fa7f477d855833d46f892ba26.png

所以混合高斯分布的表达式如下:

740e91ebce2cb51a131c0a3f99cd38d4.png

其中αk是系数,αk ≥ 0,且所有的α总和为1,k表示第k个模型,其中Φ(y|θk) 是高斯分布密度ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值