【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
高斯混合模型(Gaussian Mixture Model, GMM) 是一种概率式的聚类方法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的。具体地,给定类个数K,对于给定样本空间中的样本
,一个高斯混合模型的概率密度函数可以由K个多元高斯分布组合成的混合分布表示:
其中,
是以
为均值向量,
为协方差矩阵的多元高斯分布的概率密度函数,可以看出,高斯混合模型由K个不同的多元高斯分布共同组成,每一个分布被称为高斯混合模型中的一个 成分(Component), 而
为第i个多元高斯分布在混合模型中的 权重 ,且有
。
假设已有一个存在的高斯混合模型,那么,样本空间中的样本的生成过程即是:以
作为概率(实际上,权重可以直观理解成相应成分产生的样本占总样本的比例),选择出一个混合成分,根据该混合成分的概率密度函数,采样产生出相应的样本。
那么,利用GMM进行聚类的过程是利用GMM生成数据样本的“逆过程”:给定聚类簇数K,通过给定的数据集,以某一种 参数估计 的方法,推导出每一个混合成分的参数(即均值向量
、协方差矩阵
和权重
),每一个多