K-means算法及其原理原理
一. 算法步骤
根据设定的聚类数 K ,随机地选择 K 个聚类中心(Cluster Centroid)
评估各个样本到聚类中心的距离,如果样本距离第 i 个聚类中心更近,则认为其属于第 i 簇
计算每个簇中样本的平均(Mean)位置,将聚类中心(质心)移动至该位置
重复2-3次直到质心不在发生变化
注意:某些聚类中心可能没有被分配到样本,这样的聚类中心就会被淘汰(意味着最终的类数可能会减少)
二. 算法原理
- 随机选择k个点作为初始聚类中心
- 对剩下的点,计算其到各个聚类中心的距离,根据与聚类中心的距离,将其归入最近族
- 对每个族计算所有点的均值,作为新的聚类中心
三.算法作用
K-means算法的作用为聚类。说到聚类,首先要分清聚类与分类的区别。
聚类:将未知特征的数据通过算法将数据进行分类,通过算法发现数据间的相似性,将相似数据归为一类,在聚类结果出现前我们不知道每一类之间有什么特点。
分类:分类是通过已经存在的某些特点进行分类。例如邮件,当长时间将某种具有特点的邮件被归为垃圾邮件时,我们就将包含这类特点的邮件分成一类。聚类与分类最大的区别表现在,分类的数据已经掌握了某种特征。
四.代码实现
k=3
#实例化一个Kmeans对象
km=KMeans(n_clusters=k)
km.fit(data)#训练数据
y_predict=km.predict(data)
#print(y_predict)#进行预测
center=km.cluster_centers_#确定聚类中心
原文链接:https://blog.csdn.net/weixin_44675384/article/details/93910125
五.算法优缺点
优点
- 原理简单,易于理解实现
- 聚类效果比较好
缺点
- K值不好选取
- 容错率较低,容易被干扰
优化K-means++