聚类算法（EM，Expectation Maximization）原理及聚类（GMM，GaussianMixture）实战——python

最新推荐文章于 2023-05-28 18:13:10 发布

置顶蓝翔厨师长

最新推荐文章于 2023-05-28 18:13:10 发布

阅读量2.4k

点赞数

分类专栏： python 统计学算法模型文章标签： python 算法聚类

本文链接：https://blog.csdn.net/qq_38415758/article/details/109475044

版权

python 同时被 3 个专栏收录

28 篇文章 1 订阅

订阅专栏

统计学

8 篇文章 0 订阅

订阅专栏

算法模型

7 篇文章 0 订阅

订阅专栏

聚类算法原理简介（EM）

EM聚类原理如其名称所示，EM聚类主要是两个步骤，一是期望步骤（Expectation）；二是最大化步骤（Maximization）。thinking：一个西瓜分给两个人，怎么才能切的合理？第一步是随机切一刀，观察预期，这就是期望步骤（Expectation）；第二步是如果存在偏差，需要重新评估如何切，即重新评估参数，这就是最大化步骤（Maximization）。
在这里插入图片描述
EM算法是一种求解最大似然估计的方法，通过观测样本，来找出样本的模型参数。
通过EM算法中的E步来进行观察，然后通过M步来进行调整两边西瓜的大小的，最后让两边西瓜的参数不再发生变化。

EM算法

假设我们有A和B两枚硬币，我们做了5组实验，每组实验投掷10次，然后统计出现正面的次数（投掷硬币时，不知道投掷的硬币是A还是B）
在这里插入图片描述
step1:随机初始化参数，假设硬币A和B的正面概率（随机指定）分别为θA=0.5和θB=0.9。
Step2，计算期望值，如果实验1投掷的是硬币A，那么正面次数为5的概率为
如果投掷的硬币B ，概率为
所以实验1更有可能投掷的是硬币A，对实验2~5重复这个计算过程，推理出来硬币顺序应该是{A，A，B，B，A}
通过假设的参数来估计未知参数，即“每次投掷是哪枚硬币”，结果如下：
在这里插入图片描述
再计算θA和θB的参数，θA = （5+7+4）/30 = 0.533；θB = （8+9）/20=0.85
与step1的假设有冲突，接着：
Step3，通过猜测的结果{A, A, B, B, A}来完善初始的参数θA和θB，重复Step1 和Step2，直到参数不再发生变化

二、EM聚类实战

对足球队进行聚类，数据如下：
在这里插入图片描述
代码如下：

import pandas as pd
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
#数据加载
df = pd.read_csv('team_cluster_data.csv',encoding='gbk')
train_x = df[['2019国际排名','2018世界杯排名','2015亚洲杯排名']]
#设置分类个数
GMM = GaussianMixture(n_components=3,covariance_type='full')
GMM.fit(train_x)
predict_GMM = GMM.predict(train_x)
#聚类结果返回到df
df = pd.concat([df,pd.DataFrame(predict_GMM,columns = ['GMM_pred'])],axis =1)
#print(df)

#用kmeans进行测试
SSE = []
for i in range(1,10):
    KM = KMeans(n_clusters=i)
    KM.fit(train_x)
    KM.predict(train_x)
    SSE.append(KM.inertia_)
plt.figure(figsize= (12,9))
plt.plot(range(1,10),SSE)
plt.xlabel('簇数量——聚类的k值')
plt.ylabel('簇的误差平方和SSE')
plt.show()
KM = KMeans(n_clusters=3)
df = pd.concat([df,pd.DataFrame(KM.fit_predict(train_x),columns = ['KM_pred'])],axis =1)
print(df)