Scikit-Learn学习笔记——高斯混合模型(GMM)应用：分类、密度估计、生成模型

最新推荐文章于 2024-01-04 00:02:38 发布

盐味橙汁

最新推荐文章于 2024-01-04 00:02:38 发布

阅读量6.5w

点赞数 55

分类专栏： python 学习笔记机器学习

本文链接：https://blog.csdn.net/jasonzhoujx/article/details/81947663

版权

高斯混合模型

k-means聚类模型非常简单并且易于理解，但是他的简单性也为实际应用带来了挑战。特别是实际应用中，k-means的非概率性和它仅根据到簇中心点的距离来指派将导致性能低下。高斯混合模型可以看作是k-means的一个扩展，但它也是一种非常强大的聚类评估工具。

k-means算法的缺陷

在实际聚类的过程中，两个簇往往会存在重合部分。k-means算法对于重合部分的点被分配到哪个簇缺乏一个评估方案，k-means模型本身也没有度量簇的分配概率或不确定性的方法。

理解k-means模型的一个方法是，它在每个簇的中心放置了一个圆圈（在更高维空间是一个超空间），圆圈半径根据最远的点和簇中心点的距离算出。这个半径作为训练集分配的硬切断，即在这个圆圈之外的任何点都不是该簇的成员。而且，k-means要求这些簇的模型必须是圆形：k-means算法没有内置方法来实现椭圆形的簇。这就使得某些情况下k-means模型拟合出来的簇（圆形）与实际数据分布（可能是椭圆）差别很大，导致多个圆形的簇混在一起，相互重叠。

总的来说，k-means存在两个缺点——类的形状缺少灵活性、缺少簇分配的概率——使得它对许多数据集（特别是低维数据集）的拟合效果不尽如人意。

高斯混合模型

一个高斯混合模型试图找到多维高斯模型概率分布的混合体，从而找到任意数据最好的模型。在最简单的场景中，GMM可以用与k-means相同的方式寻找类。

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

#产生实验数据
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=400, centers=4,
                       cluster_std=0.60, random_state=0)
X = X[:, ::-1] #交换列是为了方便画图

from sklearn.mixture import GMM
gmm = GMM(n_components=4).fit(X)
labels = gmm.predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis');

这里写图片描述

#由于GMM有一个隐含的概率模型，因此它也可能找到簇分配的概率结果——在Scikit-Learn中用predict_proba方法
#实现。这个方法返回一个大小为[n_samples, n_clusters]的矩阵，矩阵会给出任意属于某个簇的概率
probs = gmm.predict_proba(X)
print(probs[:5].round(3))

#输出结果
[[0.525 0.475 0.    0.   ]
 [0.    0.

最低0.47元/天解锁文章