基于KMeans聚类算法进行简单的数据分类

                                       ——以二维数组、鸢尾花和中国城市经纬度为实例

先简单了解下Kmeans聚类算法。聚类算法属于无监督学习,其中的KMeans算法是将一组有N个样本的数据划分成K个不相交的 clusters (簇) C。 means (均值)通常被称为 cluster(簇)的 “centroids(质心)”; 注意,它们一般不是从 X 中挑选出的点,虽然它们是处在同一个 space(空间)。算法有三个步骤。要知道欧氏距离、曼哈顿距离、明可夫斯基距离三个距离的公式和计算。讲概念的文章很多,这篇还不错。https://www.cnblogs.com/f-young/p/9248247.html

我看了文章之后,对原理了解个大概,但是还是不知道怎么运用。然后师兄给我推荐了一个实例,鸢尾花数据的聚类。我看的是这个文章https://blog.csdn.net/zijinmu69/article/details/82708130
看了之后大概知道KMeans聚类算法的框架吧。

第一步

引入K-Means聚类算法和画图的包,没有sklearn和matplotlib的需要先下载。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import  numpy as np

第二步

导入数据,有两种方法,第一种直接在代码里输入。

X = [[0.0888, 0.5885],
     [0.1399, 0.8291],
     [0.0747, 0.4974],
     [0.0983, 0.5772],
     [0.1276, 0.5703],
     [0.1671, 0.5835],
     [0.1906, 0.5276],
     [0.1061, 0.5523],
     [0.2446, 0.4007],
     [0.1670, 0.4770],
     [0.2485, 0.4313],
     [0.1227, 0.4909],
     [0.1240, 0.5668],
     [0.1461, 0.5113],
     [0.2315, 0.3788],
     [0.0494, 0.5590],
     [0.1107, 0.4799],
     [0.2521, 0.5735],
     [0.1007, 0.6318],
     [0.1067, 0.4326],
     [0.1956, 0.4280]
    ]
print(X)

第二种是调用文件。现在文件夹保存.txt文件然后调用。我这边因为方便用的是txt,但是今天在调用的时候出了问题,txt文档里的空格没发现,看上去是一样,其实有一份有空格,在windows系统里看不出来,找师兄帮忙,师兄用的是linux系统就发现问题了。
在这里插入图片描述在这里插入图片描述
这两张是Windows系统的,看上去都没有空行,我一直找不出错误。
在这里插入图片描述在这里插入图片描述
这两张是Linux系统下的,可以发现第二张图片的文档行与行之间是有空行的。
这个教训提醒我,以后要像师兄一样,用.mat文件,用Python去调用,不用偷懒用.txt
调用文档的代码如下,自己需要改的是文件储存地址和调用的数据范围。

X = []
f = open('citiess.txt')
for v in f:
    X.append([float(v.split()[1][3:9]), float(v.split()[2][3:5])])
X = np.array(X)
print(X)

第三步

设置分类器,刚入门可以直接设置好K数量,而不是去寻找最优K。

city = KMeans(n_clusters=5)
y_pred = city.fit_predict(X)

“=”后面的数字表示分成几类,这个代码还有其他表示方式,结果都一样。

city = KMeans(n_clusters=5)
city.fit(X)
y_pred = city.fit_predict(X)

第四步

把结果画出来,不同数据,不同分类数量代码不同。`我参考这个文章
https://blog.csdn.net/qq_25948717/article/details/81664822

markers = [‘*’, ‘o’, ‘+’, ‘s’, ‘v’]
n_clusters=5
for i in range(n_clusters):
members = city.labels_ == i
plt.scatter(X[members,0],X[members,1],s = 60,marker = markers[i],c = ‘r’,alpha=0.5)

plt.title(‘China’)
plt.show()
print(X)

我自己去网上找的中国各个城市经纬度的数据,和原文数据不一样。出来的效果图如下。这个图让我深刻认识到对画图工具掌握的极为不熟练,回去学习了。哭辽T_T
在这里插入图片描述
改一下第四步的代码,这个图凑活看吧在这里插入图片描述

我练了三个实例,二维数组第二步中直接输入数据,其余代码差不多。鸢尾花在第一步中直接导入鸢尾花数据,python库里就有。中国各城市经纬度在第二步导入数据,代码视文档微调。数据如下。https://download.csdn.net/download/chenciyuan_nj/11541497
Kmeans 聚类算法还可以往图片聚类、文字聚类上面深入研究。陈同学要先回去练Python100例了。学算法还是很愉快的~

2023年更新
画图的代码

# 画图
# markers = ['*', 'o', '+', 's', 'v'] 悬停点的标记
COLOR_LIST = ["#FF0000", "#0000FF", "#8B1A1A", "#228B22", "#800080", "#9400D3", "#00FFFF", "#006400", "#DC143C", "#483D8B"]

for i in range(n_clusters):
    members = cls.labels_ == i  # members是布尔数组

    plt.scatter(X[members, 0], X[members, 1], s=60, marker='o', c=COLOR_LIST[i], alpha=0.5)  # 画与menbers数组中匹配的点

plt.title('China')
plt.show()
print(X)
  • 6
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值