聚类算法——KMeans算法（机器学习）

最新推荐文章于 2024-06-20 10:07:37 发布

YU 峰

最新推荐文章于 2024-06-20 10:07:37 发布

阅读量6k

点赞数 7

文章标签： python 机器学习 kmeans算法

本文链接：https://blog.csdn.net/stusss/article/details/105539847

版权

在这里插入图片描述
一、输入参数

n_clusters：数据集将被划分成 n_clusters个‘簇’即k值以及（int, optional, default: 8）。一般需要选取多个k值进行运算，并用评估标准判断所选k值的好坏，以获得较好的聚类效果。
max_iter : 最大迭代次数（ int, default: 300）一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。（较难理解待解决中）
init：簇中心初始值的选择方式 {‘k-means++’, ‘random’ or an ndarray} defaults to ‘k-means++’:random:从数据集中随机选取k个样本；an ndarray：人为选定
random_state：随机状态。integer or numpy 默认是None.任意填写一个整数值或numpy，每次产生的随机数都相同（If an integer is given, it fixes the seed,也就是匹配随机种子：保留了当前获取随机数的原始信息，当你想产生和该次获取随机数的效果一样的时候，你可以申明一下随机种子，也就是拿可以长出相同类型植物的种子，进行培养以得到你希望得到的植物，这是一种形象的命名，当时要注意取值，取值相当于告诉你这颗种子最终会长出的植物类型），这样你每次运行程序的时候，获得的数据都是一样的。

二、属性

三、方法

fit(X[, y]) Compute k-means clustering. 执行k均值聚类
fit_predict(X[, y]) Compute cluster centers and predict cluster index for each sample.
计算簇的中心并且预测每个样本对应的簇类别，相当于先调用fit(X)再调用predict(X)，提倡这种方法，返回labels标签（0,1,2……）

四、数据类型

fit_predict(X[, y]) ，fit(X[, y])
X[, y]数据类型为[[data1，data2……],[ data1，data2……],[]……]

例如：
Data = [[1,4,5,1],[1,5,4,3],[15,23,18,4],[15,48,5,3],[100,5,48]]
Km = KMeans(n_clusters=3) #设置分类成几个簇
Lables = Km.fit_predict(data)
在创建列表按照标签依次添加

关注