——以二维数组、鸢尾花和中国城市经纬度为实例
先简单了解下Kmeans聚类算法。聚类算法属于无监督学习,其中的KMeans算法是将一组有N个样本的数据划分成K个不相交的 clusters (簇) C。 means (均值)通常被称为 cluster(簇)的 “centroids(质心)”; 注意,它们一般不是从 X 中挑选出的点,虽然它们是处在同一个 space(空间)。算法有三个步骤。要知道欧氏距离、曼哈顿距离、明可夫斯基距离三个距离的公式和计算。讲概念的文章很多,这篇还不错。https://www.cnblogs.com/f-young/p/9248247.html
我看了文章之后,对原理了解个大概,但是还是不知道怎么运用。然后师兄给我推荐了一个实例,鸢尾花数据的聚类。我看的是这个文章https://blog.csdn.net/zijinmu69/article/details/82708130
看了之后大概知道KMeans聚类算法的框架吧。
第一步
引入K-Means聚类算法和画图的包,没有sklearn和matplotlib的需要先下载。
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
第二步
导入数据,有两种方法,第一种直接在代码里输入。
X = [[0.0888, 0.5885],
[0.1399, 0.8291],
[0.0747, 0.4974],
[0.0983, 0.5772],
[0.1276, 0.5703],
[0.1671, 0.5835],
[0.1906, 0.5276],
[0.1061, 0.5523],
[0.2446, 0.4007],
[0.1670, 0.4770],
[0.2485, 0.4313],
[0.1227, 0.4909],
[0.1240, 0.5668],
[0.1461, 0.5113],
[0.2315, 0.3788],
[0.0494, 0.5590],
[0.1107, 0.4799],
[0.2521, 0.5735],
[0.1007, 0.6318],
[0.1067, 0.4326],
[0.1956, 0.4280]
]
print(X)
第二种是调用文件。现在文件夹保存.txt文件然后调用。我这边因为方便用的是txt,但是今天在调用的时候出了问题,txt文档里的空格没发现,看上去是一样,其实有一份有空格,在windows系统里看不出来,找师兄帮忙,师兄用的是linux系统就发现问题了。
这两张是Windows系统的,看上去都没有空行,我一直找不出错误。
这两张是Linux系统下的,可以发现第二张图片的文档行与行之间是有空行的。
这个教训提醒我,以后要像师兄一样,用.mat文件,用Python去调用,不用偷懒用.txt
调用文档的代码如下,自己需要改的是文件储存地址和调用的数据范围。
X = []
f = open('citiess.txt')
for v in f:
X.append([float(v.split()[1][3:9]), float(v.split()[2][3:5])])
X = np.array(X)
print(X)
第三步
设置分类器,刚入门可以直接设置好K数量,而不是去寻找最优K。
city = KMeans(n_clusters=5)
y_pred = city.fit_predict(X)
“=”后面的数字表示分成几类,这个代码还有其他表示方式,结果都一样。
city = KMeans(n_clusters=5)
city.fit(X)
y_pred = city.fit_predict(X)
第四步
把结果画出来,不同数据,不同分类数量代码不同。`我参考这个文章
https://blog.csdn.net/qq_25948717/article/details/81664822
markers = [‘*’, ‘o’, ‘+’, ‘s’, ‘v’]
n_clusters=5
for i in range(n_clusters):
members = city.labels_ == i
plt.scatter(X[members,0],X[members,1],s = 60,marker = markers[i],c = ‘r’,alpha=0.5)
plt.title(‘China’)
plt.show()
print(X)
我自己去网上找的中国各个城市经纬度的数据,和原文数据不一样。出来的效果图如下。这个图让我深刻认识到对画图工具掌握的极为不熟练,回去学习了。哭辽T_T
改一下第四步的代码,这个图凑活看吧
我练了三个实例,二维数组第二步中直接输入数据,其余代码差不多。鸢尾花在第一步中直接导入鸢尾花数据,python库里就有。中国各城市经纬度在第二步导入数据,代码视文档微调。数据如下。https://download.csdn.net/download/chenciyuan_nj/11541497
Kmeans 聚类算法还可以往图片聚类、文字聚类上面深入研究。陈同学要先回去练Python100例了。学算法还是很愉快的~
2023年更新
画图的代码
# 画图
# markers = ['*', 'o', '+', 's', 'v'] 悬停点的标记
COLOR_LIST = ["#FF0000", "#0000FF", "#8B1A1A", "#228B22", "#800080", "#9400D3", "#00FFFF", "#006400", "#DC143C", "#483D8B"]
for i in range(n_clusters):
members = cls.labels_ == i # members是布尔数组
plt.scatter(X[members, 0], X[members, 1], s=60, marker='o', c=COLOR_LIST[i], alpha=0.5) # 画与menbers数组中匹配的点
plt.title('China')
plt.show()
print(X)