K-means经典代码

最新推荐文章于 2024-08-11 16:00:02 发布

Chris573

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量216

点赞数

分类专栏： python

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

import pandas as pd
from sklearn.cluster import KMeans #导入K均值聚类算法
import matplotlib.pyplot as plt

inputfile = '../zscoreddata.xlsx' #待聚类的数据文件
outputfile = '../fenlei.xlsx'
k = 5                       #需要进行的聚类类别数
iteration = 500             #聚类最大循环数

#读取数据并进行聚类分析
data = pd.read_excel(inputfile) #读取数据

#调用k-means算法，进行聚类分析
kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU数较好
kmodel.fit(data) #训练模型

r1 = pd.Series(kmodel.labels_).value_counts()  #统计各个类别的数目
r2 = pd.DataFrame(kmodel.cluster_centers_)     #找出聚类中心
r = pd.concat([r2, r1], axis = 1) #横向连接（0是纵向），得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目'] #重命名表头
print r

r = pd.concat([data, pd.Series(kmodel.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
r.to_excel(outputfile) #保存分类结果

def density_plot(data): #自定义作图函数  
    p = data.plot(kind='kde', linewidth = 2, subplots = True, sharex = False)
    [p[i].set_ylabel('density') for i in range(k)]
    plt.legend()
    return plt

pic_output = 'D://mypy/' #概率密度图文件名前缀
for i in range(k):
    density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))
---------------------

原文：https://blog.csdn.net/lilu916/article/details/72997644
以上为K-means模型的经典代码，留存以后备用