kmeans,k值选择,初始点

本文介绍了k-means聚类算法的原理,强调了k值选择和初始中心点选取的重要性。k值的选取可以通过考虑类簇指标的变化趋势来决定,而初始中心点可以选择距离最远的点或通过canopy算法确定。k-means算法的性能高度依赖于这两个参数的选择。
摘要由CSDN通过智能技术生成

打卡+坚持
今日语录:告别平庸,告别懒惰,告别拖延,告别借口

一、kmeans的原理:

kmeans是常用的聚类方法,主要思想是给定k个值和k个中心的情况下,把每个点分到离他最近的簇心得类中,所有点分配完毕以后,再重新计算中心点(取平均值),再进行分配,重复以上步骤,直到达到最大迭代次数或中心点得变化几乎很小得时候。
kmeans的算法很简单,但是k的选值和初始类簇中心点的选值很重要。

二、k的选值和中心点的选取
  • 1.确定k个初始类簇中心点的方法是随机选择k个点作为初始的类簇中心点,但是该方法在有些情况下会比较差。

  • 2.k个初始类簇的选取有两种方法:

  • 1)选择彼此距离尽可能远的k个点。
    首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的点作为第二个类初始簇中心点,然后再选择距离前两个点最远的点作为第三个初始类簇的中心点,以此类推,直至选出k个中心点。

  • 2)先对数据用层次聚类算法,或canopy算法进行聚类,得到k个簇后,从每个簇中选择一个点,该点可以是该类簇的中心,或者是距离簇中心最近的点。
    常用的层次聚类算法有BIRCH和ROCK。这里主要介绍canopy算法:
    (1).首先定义两个距离T1和T2,T1>T2.从初始的点的集合S中随机移除一个点P,然后对于还在S中的每个点I,计算该点I与点P的距离,如果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值