聚类算法(EM,Expectation Maximization)原理及聚类(GMM,GaussianMixture)实战——python

8 篇文章 0 订阅
7 篇文章 0 订阅

聚类算法原理简介(EM)

EM聚类原理如其名称所示,EM聚类主要是两个步骤,一是期望步骤(Expectation);二是最大化步骤(Maximization)。thinking:一个西瓜分给两个人,怎么才能切的合理?第一步是随机切一刀,观察预期,这就是期望步骤(Expectation);第二步是如果存在偏差,需要重新评估如何切,即重新评估参数,这就是最大化步骤(Maximization)。
在这里插入图片描述
EM算法是一种求解最大似然估计的方法,通过观测样本,来找出样本的模型参数。
通过EM算法中的E步来进行观察,然后通过M步来进行调整两边西瓜的大小的,最后让两边西瓜的参数不再发生变化。

EM算法

假设我们有A和B两枚硬币,我们做了5组实验,每组实验投掷10次,然后统计出现正面的次数(投掷硬币时,不知道投掷的硬币是A还是B)
在这里插入图片描述
step1:随机初始化参数,假设硬币A和B的正面概率(随机指定)分别为θA=0.5和θB=0.9。
Step2,计算期望值,如果实验1投掷的是硬币A,那么正面次数为5的概率为
如果投掷的硬币B ,概率为
所以实验1更有可能投掷的是硬币A,对实验2~5重复这个计算过程,推理出来硬币顺序应该是{A,A,B,B,A}
通过假设的参数来估计未知参数,即“每次投掷是哪枚硬币”,结果如下:
在这里插入图片描述
再计算θA和θB的参数,θA = (5+7+4)/30 = 0.533;θB = (8+9)/20=0.85
与step1的假设有冲突,接着:
Step3,通过猜测的结果{A, A, B, B, A}来完善初始的参数θA和θB,重复Step1 和Step2,直到参数不再发生变化

二、EM聚类实战

对足球队进行聚类,数据如下:
在这里插入图片描述
代码如下:

import pandas as pd
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
#数据加载
df = pd.read_csv('team_cluster_data.csv',encoding='gbk')
train_x = df[['2019国际排名','2018世界杯排名','2015亚洲杯排名']]
#设置分类个数
GMM = GaussianMixture(n_components=3,covariance_type='full')
GMM.fit(train_x)
predict_GMM = GMM.predict(train_x)
#聚类结果返回到df
df = pd.concat([df,pd.DataFrame(predict_GMM,columns = ['GMM_pred'])],axis =1)
#print(df)

#用kmeans进行测试
SSE = []
for i in range(1,10):
    KM = KMeans(n_clusters=i)
    KM.fit(train_x)
    KM.predict(train_x)
    SSE.append(KM.inertia_)
plt.figure(figsize= (12,9))
plt.plot(range(1,10),SSE)
plt.xlabel('簇数量——聚类的k值')
plt.ylabel('簇的误差平方和SSE')
plt.show()
KM = KMeans(n_clusters=3)
df = pd.concat([df,pd.DataFrame(KM.fit_predict(train_x),columns = ['KM_pred'])],axis =1)
print(df)

EM聚类(足球队)

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝翔厨师长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值