sklearn.mixture
是一个可以用来学习高斯混合模型(支持对角线(diagonal),球面(spherical),平移(tied)和全协方差矩阵(full covariance matrices))的工具包,同时它还提供了对混合分布进行抽样,以及从数据训练拟合混合模型的功能。它还提供了一些工具帮助我们确定分量的合适数量。
二元高斯混合模型(Two-component Gaussian mixture model):
数据点,以及模型的等概率平面(equi-probability surfaces)。 高斯混合模型是一种概率模型,它假定所有数据点都是由有限个参数未知的高斯分布进行混合来产生的。可以认为混合模型是k均值聚类的推广,它包含了关于数据的协方差结构和在高斯分布中的中心信息。 Scikit-learn实现了不同的类来估计高斯混合模型,这些模型对应着不同的估计策略,下面将进行详细介绍。
高斯混合(Gaussian Mixture)
GaussianMixture
对象实现了用于拟合高斯混合模型的 期望最大化(expectation-maximization) (EM)算法。同时它还可以绘制多元模型的置信椭圆体,并通过计算贝叶斯信息准则来评估数据中的聚类数量。该类对象提供了从训练数据中学习高斯混合模型的
GaussianMixture.fit
方法。在给定测试数据的情况下,可以使用
GaussianMixture.predict
方法为每个样本分配它可能属于的高斯分布。
GaussianMixture
有不同的选项来约束不同类型估计方法的协方差:球面(spherical)、对角线(diagonal)、平移(tied)或完全协方差(full covariance)。
案例:
- 有关在鸢尾属植物数据集上使用高斯混合进行聚类的案例,详情请参见GMM协方差。
- 有关绘制密度估算值的案例,详情请参见高斯混合的密度估算值。
1.