K-means算法

K-means算法及其原理原理

一. 算法步骤

 根据设定的聚类数  K ,随机地选择  K  个聚类中心(Cluster Centroid)
 评估各个样本到聚类中心的距离,如果样本距离第  i  个聚类中心更近,则认为其属于第  i  簇
 计算每个簇中样本的平均(Mean)位置,将聚类中心(质心)移动至该位置
 重复2-3次直到质心不在发生变化

注意:某些聚类中心可能没有被分配到样本,这样的聚类中心就会被淘汰(意味着最终的类数可能会减少)

二. 算法原理

  1. 随机选择k个点作为初始聚类中心
  2. 对剩下的点,计算其到各个聚类中心的距离,根据与聚类中心的距离,将其归入最近族
  3. 对每个族计算所有点的均值,作为新的聚类中心

三.算法作用
K-means算法的作用为聚类。说到聚类,首先要分清聚类与分类的区别。

聚类:将未知特征的数据通过算法将数据进行分类,通过算法发现数据间的相似性,将相似数据归为一类,在聚类结果出现前我们不知道每一类之间有什么特点。

分类:分类是通过已经存在的某些特点进行分类。例如邮件,当长时间将某种具有特点的邮件被归为垃圾邮件时,我们就将包含这类特点的邮件分成一类。聚类与分类最大的区别表现在,分类的数据已经掌握了某种特征。
四.代码实现

k=3
#实例化一个Kmeans对象
km=KMeans(n_clusters=k)
km.fit(data)#训练数据
y_predict=km.predict(data)
#print(y_predict)#进行预测
center=km.cluster_centers_#确定聚类中心
原文链接:https://blog.csdn.net/weixin_44675384/article/details/93910125

五.算法优缺点
优点

  1. 原理简单,易于理解实现
  2. 聚类效果比较好

缺点

  1. K值不好选取
  2. 容错率较低,容易被干扰

优化K-means++

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值