聚类算法(EM,Expectation Maximization)原理及聚类(GMM,GaussianMixture)实战——python

8 篇文章 0 订阅
7 篇文章 0 订阅

聚类算法原理简介(EM)

EM聚类原理如其名称所示,EM聚类主要是两个步骤,一是期望步骤(Expectation);二是最大化步骤(Maximization)。thinking:一个西瓜分给两个人,怎么才能切的合理?第一步是随机切一刀,观察预期,这就是期望步骤(Expectation);第二步是如果存在偏差,需要重新评估如何切,即重新评估参数,这就是最大化步骤(Maximization)。
在这里插入图片描述
EM算法是一种求解最大似然估计的方法,通过观测样本,来找出样本的模型参数。
通过EM算法中的E步来进行观察,然后通过M步来进行调整两边西瓜的大小的,最后让两边西瓜的参数不再发生变化。

EM算法

假设我们有A和B两枚硬币,我们做了5组实验,每组实验投掷10次,然后统计出现正面的次数(投掷硬币时,不知道投掷的硬币是A还是B)
在这里插入图片描述
step1:随机初始化参数,假设硬币A和B的正面概率(随机指定)分别为θA=0.5和θB=0.9。
Step2,计算期望值,如果实验1投掷的是硬币A,那么正面次数为5的概率为
如果投掷的硬币B ,概率为
所以实验1更有可能投掷的是硬币A,对实验2~5重复这个计算过程,推理出来硬币顺序应该是{A,A,B,B,A}
通过假设的参数来估计未知参数,即“每次投掷是哪枚硬币”,结果如下:
在这里插入图片描述
再计算θA和θB的参数,θA = (5+7+4)/30 = 0.533;θB = (8+9)/20=0.85
与step1的假设有冲突,接着:
Step3,通过猜测的结果{A, A, B, B, A}来完善初始的参数θA和θB,重复Step1 和Step2,直到参数不再发生变化

二、EM聚类实战

对足球队进行聚类,数据如下:
在这里插入图片描述
代码如下:

import pandas as pd
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
#数据加载
df = pd.read_csv('team_cluster_data.csv',encoding='gbk')
train_x = df[['2019国际排名','2018世界杯排名','2015亚洲杯排名']]
#设置分类个数
GMM = GaussianMixture(n_components=3,covariance_type='full')
GMM.fit(train_x)
predict_GMM = GMM.predict(train_x)
#聚类结果返回到df
df = pd.concat([df,pd.DataFrame(predict_GMM,columns = ['GMM_pred'])],axis =1)
#print(df)

#用kmeans进行测试
SSE = []
for i in range(1,10):
    KM = KMeans(n_clusters=i)
    KM.fit(train_x)
    KM.predict(train_x)
    SSE.append(KM.inertia_)
plt.figure(figsize= (12,9))
plt.plot(range(1,10),SSE)
plt.xlabel('簇数量——聚类的k值')
plt.ylabel('簇的误差平方和SSE')
plt.show()
KM = KMeans(n_clusters=3)
df = pd.concat([df,pd.DataFrame(KM.fit_predict(train_x),columns = ['KM_pred'])],axis =1)
print(df)

EM聚类(足球队)

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
GMMGaussian Mixture Model)是一种基于高斯分布的概率模型,常用于聚类或密度估计。EMExpectation-Maximization算法是一种迭代算法,通常用于GMM的参数估计。下面是使用Python实现GMMEM算法的示例代码: ``` import numpy as np from sklearn.mixture import GaussianMixture # 生成随机数据 np.random.seed(0) X = np.concatenate([np.random.randn(100, 2) + [2, 2], np.random.randn(100, 2) + [-2, -2], np.random.randn(100, 2) + [2, -2]]) # 初始化GMM模型 gmm = GaussianMixture(n_components=3, covariance_type='full') # 训练模型 gmm.fit(X) # 打印聚类结果 print(gmm.predict(X)) # 打印GMM模型参数 print('Means:') print(gmm.means_) print('Covariances:') print(gmm.covariances_) print('Weights:') print(gmm.weights_) ``` 这段代码使用了`sklearn.mixture.GaussianMixture`类,它可以方便地进行GMM模型的训练和参数估计。其中,`n_components`参数指定了聚类个数,`covariance_type`参数指定了协方差矩阵类型。在上面的例子中,我们使用了`'full'`类型,即完整协方差矩阵。 下面是使用Python实现EM算法的示例代码: ``` import numpy as np # 初始化参数 np.random.seed(0) K = 3 N = 300 mu = np.array([[-2, 2], [2, 2], [0, -2]]) sigma = np.array([[[1, 0], [0, 1]], [[1, 0.5], [0.5, 1]], [[0.5, 0], [0, 0.5]]]) alpha = np.ones(K) / K x = np.zeros((N, 2)) for i in range(K): x[i * 100:(i + 1) * 100, :] = np.random.multivariate_normal(mu[i, :], sigma[i, :, :], 100) # EM算法迭代 for t in range(10): # E步:计算后验概率 gamma = np.zeros((N, K)) for k in range(K): gamma[:, k] = alpha[k] * np.exp(-0.5 * np.sum((x - mu[k, :]) ** 2 / sigma[k, :, :], axis=1)) / np.sqrt(np.linalg.det(sigma[k, :, :])) gamma /= np.sum(gamma, axis=1, keepdims=True) # M步:更新模型参数 for k in range(K): Nk = np.sum(gamma[:, k]) mu[k, :] = np.sum(gamma[:, k].reshape(-1, 1) * x, axis=0) / Nk sigma[k, :, :] = np.sum(gamma[:, k].reshape(-1, 1, 1) * np.matmul((x - mu[k, :]).reshape(-1, 2, 1), (x - mu[k, :]).reshape(-1, 1, 2)), axis=0) / Nk alpha[k] = Nk / N # 打印模型参数 print('Iteration', t + 1) print('Means:') print(mu) print('Covariances:') print(sigma) print('Weights:') print(alpha) ``` 这段代码使用了EM算法来估计GMM模型的参数。其中,`mu`、`sigma`和`alpha`分别表示高斯分布的均值、协方差矩阵和权重,`gamma`表示后验概率。在每一轮迭代中,首先计算后验概率,然后根据后验概率更新模型参数。迭代结束后,打印出模型参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝翔厨师长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值