基于KMeans聚类算法进行简单的数据分类

热巴小迷妹

已于 2023-06-26 13:20:28 修改

阅读量7.7k

点赞数 6

分类专栏： python 文章标签： KMeans 聚类算法 python 数据分类

于 2019-08-14 11:02:34 首次发布

本文链接：https://blog.csdn.net/Chenciyuan_nj/article/details/99469024

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

                                       ——以二维数组、鸢尾花和中国城市经纬度为实例

先简单了解下Kmeans聚类算法。聚类算法属于无监督学习，其中的KMeans算法是将一组有N个样本的数据划分成K个不相交的 clusters （簇） C。 means （均值）通常被称为 cluster（簇）的 “centroids（质心）”; 注意，它们一般不是从 X 中挑选出的点，虽然它们是处在同一个 space（空间）。算法有三个步骤。要知道欧氏距离、曼哈顿距离、明可夫斯基距离三个距离的公式和计算。讲概念的文章很多，这篇还不错。https://www.cnblogs.com/f-young/p/9248247.html

我看了文章之后，对原理了解个大概，但是还是不知道怎么运用。然后师兄给我推荐了一个实例，鸢尾花数据的聚类。我看的是这个文章https://blog.csdn.net/zijinmu69/article/details/82708130
看了之后大概知道KMeans聚类算法的框架吧。

第一步

引入K-Means聚类算法和画图的包，没有sklearn和matplotlib的需要先下载。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import  numpy as np

第二步

导入数据，有两种方法，第一种直接在代码里输入。

X = [[0.0888, 0.5885],
     [0.1399, 0.8291],
     [0.0747, 0.4974],
     [0.0983, 0.5772],
     [0.1276, 0.5703],
     [0.1671, 0.5835],
     [0.1906, 0.5276],
     [0.1061, 0.5523],
     [0.2446, 0.4007],
     [0.1670, 0.4770],
     [0.2485, 0.4313],
     [0.1227, 0.4909],
     [0.1240, 0.5668],
     [0.1461, 0.5113],
     [0.2315, 0.3788],
     [0.0494, 0.5590],
     [0.1107, 0.4799],
     [0.2521, 0.5735],
     [0.1007, 0.6318],
     [0.1067, 0.4326],
     [0.1956, 0.4280]
    ]
print(X)

第二种是调用文件。现在文件夹保存.txt文件然后调用。我这边因为方便用的是txt，但是今天在调用的时候出了问题，txt文档里的空格没发现，看上去是一样，其实有一份有空格，在windows系统里看不出来，找师兄帮忙，师兄用的是linux系统就发现问题了。
在这里插入图片描述
这两张是Windows系统的，看上去都没有空行，我一直找不出错误。

这两张是Linux系统下的，可以发现第二张图片的文档行与行之间是有空行的。
这个教训提醒我，以后要像师兄一样，用.mat文件，用Python去调用，不用偷懒用.txt
调用文档的代码如下，自己需要改的是文件储存地址和调用的数据范围。

X = []
f = open('citiess.txt')
for v in f:
    X.append([float(v.split()[1][3:9]), float(v.split()[2][3:5])])
X = np.array(X)
print(X)

第三步

设置分类器，刚入门可以直接设置好K数量，而不是去寻找最优K。

city = KMeans(n_clusters=5)
y_pred = city.fit_predict(X)

“=”后面的数字表示分成几类，这个代码还有其他表示方式，结果都一样。

city = KMeans(n_clusters=5)
city.fit(X)
y_pred = city.fit_predict(X)

第四步

把结果画出来，不同数据，不同分类数量代码不同。`我参考这个文章
https://blog.csdn.net/qq_25948717/article/details/81664822

markers = [‘*’, ‘o’, ‘+’, ‘s’, ‘v’]
n_clusters=5
for i in range(n_clusters):
members = city.labels_ == i
plt.scatter(X[members,0],X[members,1],s = 60,marker = markers[i],c = ‘r’,alpha=0.5)

plt.title(‘China’)
plt.show()
print(X)

我自己去网上找的中国各个城市经纬度的数据，和原文数据不一样。出来的效果图如下。这个图让我深刻认识到对画图工具掌握的极为不熟练，回去学习了。哭辽T_T
在这里插入图片描述
改一下第四步的代码，这个图凑活看吧

我练了三个实例，二维数组第二步中直接输入数据，其余代码差不多。鸢尾花在第一步中直接导入鸢尾花数据，python库里就有。中国各城市经纬度在第二步导入数据，代码视文档微调。数据如下。https://download.csdn.net/download/chenciyuan_nj/11541497
Kmeans 聚类算法还可以往图片聚类、文字聚类上面深入研究。陈同学要先回去练Python100例了。学算法还是很愉快的~

2023年更新
画图的代码

# 画图
# markers = ['*', 'o', '+', 's', 'v'] 悬停点的标记
COLOR_LIST = ["#FF0000", "#0000FF", "#8B1A1A", "#228B22", "#800080", "#9400D3", "#00FFFF", "#006400", "#DC143C", "#483D8B"]

for i in range(n_clusters):
    members = cls.labels_ == i  # members是布尔数组

    plt.scatter(X[members, 0], X[members, 1], s=60, marker='o', c=COLOR_LIST[i], alpha=0.5)  # 画与menbers数组中匹配的点

plt.title('China')
plt.show()
print(X)

热巴小迷妹

关注

6
点赞
踩
39

收藏

觉得还不错? 一键收藏
1
评论
基于KMeans聚类算法进行简单的数据分类

——以二维数组、鸢尾花和中国城市经纬度为实例先简单了解下Kmeans聚类算法。聚类算法属于无监督学习，其中的KMeans算法是将一组有N个样本的数据划分成K个不相交的 clusters （簇） C。 means （均值）通常被称为 cluster（簇）的 “centroids（质心）”; 注意，它们...
复制链接

扫一扫

专栏目录