k均值聚类算法案例 r语言iris_python实现K-Means聚类算法

最新推荐文章于 2023-02-19 13:21:24 发布

编剧学徒

最新推荐文章于 2023-02-19 13:21:24 发布

阅读量581

点赞数 1

文章标签： k均值聚类算法案例 r语言iris

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42518930/article/details/112529416

版权

本文介绍了K-Means聚类算法的基本原理和步骤，包括选择初始聚类中心，计算样本与聚类中心的距离，以及如何更新聚类中心。通过R语言和Python代码展示了如何应用K-Means算法进行数据聚类，并进行了结果分析，包括聚类中心的确定和数据的标准化处理。此外，还提供了自定义作图函数用于展示聚类结果的密度分布。

摘要由CSDN通过智能技术生成

常用的聚类分析算法有：

K-Means：

K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。

K-中心点：

K-均值算法对于孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选中簇中离平均值最近的对象作为簇中心。

系统聚类：

系统聚类也称为多层次聚类，分类的单位由高到低呈树形结构，所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会特别慢。

本文主要介绍一下K-Means聚类算法：

1，从N个样本数据中随机选取K个对象作为初始的聚类中心；

2，分别计算每个样本到各个聚类中心的距离，将数据分配到距离最近的聚类中；

3，所有数据分配完毕后，重新计算K个聚类的中心；

4，与前一次计算得到的K个聚类中心做比较，如果聚类中心发生变化，重复过程2

5，当聚类中心不发生变化时停止并输出聚类结果

由上可以看出，出事聚类中心的随机选择，可能使结果严重偏离全局最优分类，所以为了得到较好的结果，通常选择不同的初始聚类中心，多次运行K-Mearns算法。在所有对象都分配完成后，重新计算K个聚类的中心时，对于连续数据，聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无定义，可以使用K-众数方法。

在K-Means聚类算法中，一般需要度量样本之间的距离，样本与簇之间的距离以及簇与簇之间的距离，计算距离一般有欧几里得距离，曼哈顿距离、闵可夫斯基距离，距离公式和定义百度一下就可以，本文就不一一讲解了。

代码粘贴：

#-*- coding: utf-8 -*-

#使用K-Means算法聚类消费行为特征数据

import pandasas pd

#参数初始化

inputfile ='path' #销量及其他属性数据

outputfile ='path' #保存结果的文件名

k =3 #聚类的类别

iteration =500 #聚类最大循环次数

data = pd.read_excel(inputfile, index_col ='Id')#读取数据

data_zs =1.0*(data - data.mean())/data.std()#数据标准化

from sklearn.clusterimport KMeans

model = KMeans(n_clusters = k, n_jobs =4, max_iter = iteration)#分为k类，并发数4

model.fit(data_zs)#开始聚类

#简单打印结果

r1 = pd.Series(model.labels_).value_counts()#统计各个类别的数目

r2 = pd.DataFrame(model.cluster_centers_)#找出聚类中心

r = pd.concat([r2, r1], axis =1)#横向连接(0是纵向)，得到聚类中心对应的类别下的数目

r.columns =list(data.columns) + [u'类别数目']#重命名表头

print(r)

#详细输出原始数据及其类别

r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis =1)#详细输出每个样本对应的类别

r.columns =list(data.columns) + [u'聚类类别']#重命名表头

r.to_excel(outputfile)#保存结果

def density_plot(data):#自定义作图函数

import matplotlib.pyplotas plt

plt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示中文标签

plt.rcParams['axes.unicode_minus'] =False #用来正常显示负号

p = data.plot(kind='kde', linewidth =2, subplots =True, sharex =False)

[p[i].set_ylabel(u'密度')for iin range(k)]

plt.legend()

return plt

pic_output ='../tmp/pd_' #概率密度图文件名前缀

for iin range(k):

density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。