K-means算法

最新推荐文章于 2023-11-28 09:53:01 发布

Hg_Four_Li

最新推荐文章于 2023-11-28 09:53:01 发布

阅读量199

点赞数

分类专栏：算法原理文章标签：大数据

本文链接：https://blog.csdn.net/Hg_Four_Li/article/details/107338946

版权

算法原理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

K-means算法及其原理原理

一. 算法步骤

 根据设定的聚类数  K ，随机地选择  K  个聚类中心（Cluster Centroid）
 评估各个样本到聚类中心的距离，如果样本距离第  i  个聚类中心更近，则认为其属于第  i  簇
 计算每个簇中样本的平均（Mean）位置，将聚类中心（质心）移动至该位置
 重复2-3次直到质心不在发生变化

注意：某些聚类中心可能没有被分配到样本，这样的聚类中心就会被淘汰（意味着最终的类数可能会减少）

二. 算法原理

随机选择k个点作为初始聚类中心
对剩下的点，计算其到各个聚类中心的距离，根据与聚类中心的距离，将其归入最近族
对每个族计算所有点的均值，作为新的聚类中心

三.算法作用
K-means算法的作用为聚类。说到聚类，首先要分清聚类与分类的区别。

聚类：将未知特征的数据通过算法将数据进行分类，通过算法发现数据间的相似性，将相似数据归为一类，在聚类结果出现前我们不知道每一类之间有什么特点。

分类：分类是通过已经存在的某些特点进行分类。例如邮件，当长时间将某种具有特点的邮件被归为垃圾邮件时，我们就将包含这类特点的邮件分成一类。聚类与分类最大的区别表现在，分类的数据已经掌握了某种特征。
四.代码实现

k=3
#实例化一个Kmeans对象
km=KMeans(n_clusters=k)
km.fit(data)#训练数据
y_predict=km.predict(data)
#print(y_predict)#进行预测
center=km.cluster_centers_#确定聚类中心
原文链接：https://blog.csdn.net/weixin_44675384/article/details/93910125