K-means聚类 总结

本文详细介绍了K-means聚类算法的流程,包括初始簇中心的选择、迭代过程以及停止条件。同时,讨论了K-means的两个主要缺点:K值选择的困难和初始化敏感性,并提出了肘方法、K-means++和Kmeans || 作为解决方案。此外,还介绍了K值选取的评估方法——肘方法和轮廓系数法,并提到了其他聚类算法如DBSCAN、层次聚类和基于图的聚类。
摘要由CSDN通过智能技术生成

【算法流程】

(1) 设有N个观测样本,要求聚为K类,从N个观测样本中随机选择K个点做为K个簇的初始化中心点。

(2) N个观测样本中,每个样本分别与簇中心点计算距离,将距离最小的值,归类到对应类的簇中心集合里。

(3) 现在每一个簇中有若干个观测样本,计算K个簇中所有样本点的均值,作为第二次迭代K个簇的中心点。

(4) 重复步骤2和3,迭代直到停止(停止条件:簇中心点不再改变或者达到指定的迭代次数)。

【K-means缺点】

(1) 簇个数(K值)的选择很麻烦,因为是无标签数据,并不知道聚成多少个类别才合适。

      解决方案:肘方法 或 轮廓系数法。

(2) 不同的初始化聚类中心会导致完全不同的结果,会出现算法收敛变慢和聚类出错的情况。

      解决方案:K-means++ 或 Kmeans || (可在大规模数据集上使用)。

【K-means++ 初始化簇中心步骤】

(1) 从所有样本中随机选取一个样本作为第一个簇中心。

(2) 计算所有样

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值