Scikit-Learn学习笔记——高斯混合模型(GMM)应用:分类、密度估计、生成模型

高斯混合模型

k-means聚类模型非常简单并且易于理解,但是他的简单性也为实际应用带来了挑战。特别是实际应用中,k-means的非概率性和它仅根据到簇中心点的距离来指派将导致性能低下。高斯混合模型可以看作是k-means的一个扩展,但它也是一种非常强大的聚类评估工具。

k-means算法的缺陷

在实际聚类的过程中,两个簇往往会存在重合部分。k-means算法对于重合部分的点被分配到哪个簇缺乏一个评估方案,k-means模型本身也没有度量簇的分配概率或不确定性的方法。

理解k-means模型的一个方法是,它在每个簇的中心放置了一个圆圈(在更高维空间是一个超空间),圆圈半径根据最远的点和簇中心点的距离算出。这个半径作为训练集分配的硬切断,即在这个圆圈之外的任何点都不是该簇的成员。而且,k-means要求这些簇的模型必须是圆形:k-means算法没有内置方法来实现椭圆形的簇。这就使得某些情况下k-means模型拟合出来的簇(圆形)与实际数据分布(可能是椭圆)差别很大,导致多个圆形的簇混在一起,相互重叠。

总的来说,k-means存在两个缺点——类的形状缺少灵活性、缺少簇分配的概率——使得它对许多数据集(特别是低维数据集)的拟合效果不尽如人意。

高斯混合模型

一个高斯混合模型试图找到多维高斯模型概率分布的混合体,从而找到任意数据最好的模型。在最简单的场景中,GMM可以用与k-means相同的方式寻找类。

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

#产生实验数据
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=400, centers=4,
                       cluster_std=0.60, random_state=0)
X = X[:, ::-1] #交换列是为了方便画图

from sklearn.mixture import GMM
gmm = GMM(n_components=4).fit(X)
labels = gmm.predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis');

这里写图片描述

#由于GMM有一个隐含的概率模型,因此它也可能找到簇分配的概率结果——在Scikit-Learn中用predict_proba方法
#实现。这个方法返回一个大小为[n_samples, n_clusters]的矩阵,矩阵会给出任意属于某个簇的概率
probs = gmm.predict_proba(X)
print(probs[:5].round(3))

#输出结果
[[0.525 0.475 0.    0.   ]
 [0.    0.    
Scikit-learn是一个流行的Python机器学习库,提供了许多经典的机器学习算法,包括高斯混合模型(Gaussian Mixture Model,简称GMM)。 使用scikit-learn实现高斯混合模型非常简单。首先,我们需要导入必要的库和模块: ```python import numpy as np from sklearn.mixture import GaussianMixture ``` 接下来,我们可以准备我们的数据。假设我们有一个包含n个样本的数据集X,每个样本包含d个特征。 ```python X = np.array([[...], [...], ...]) ``` 然后,我们可以创建一个高斯混合模型的实例: ```python gmm = GaussianMixture(n_components=k) ``` 其中,n_components是我们指定的高斯混合模型的数量。接下来,我们可以使用我们的数据来拟合模型: ```python gmm.fit(X) ``` 一旦模型拟合完成,我们可以使用它来进行预测或生成新样本。例如,对于给定的样本x,我们可以使用predict方法来获取其所属的高斯分量的标签: ```python label = gmm.predict([x]) ``` 我们还可以使用模型的sample方法来生成新的样本: ```python new_samples = gmm.sample(n_samples) ``` 其中,n_samples是我们希望生成的新样本数量。 最后,我们可以通过访问模型的属性来获取更多信息,例如获取高斯分量的均值和协方差矩阵: ```python means = gmm.means_ covariances = gmm.covariances_ ``` 以上就是使用scikit-learn实现高斯混合模型的基本代码。当然,我们还可以通过设置其他参数来自定义模型,例如通过修改covariance_type参数来选择协方差矩阵的类型(完全协方差、对角协方差、或者多个尺度的协方差等)。 希望能帮助到你!
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值