K-means++ 中选择初始聚类中心

最新推荐文章于 2024-08-14 00:10:28 发布

肯德基套餐

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量1w

点赞数 2

分类专栏：机器学习文章标签：机器学习 k-means 聚类

本文链接：https://blog.csdn.net/dpengwang/article/details/86574999

版权

机器学习专栏收录该内容

43 篇文章 9 订阅

订阅专栏

K-means++算法是K-means算法的改进，与原算法不通的地方仅在于初始化K个聚类中心上，算法的主要思想如下。
在这里插入图片描述
这里主要详细的介绍下Step2中的新的聚类中心选择算法。
假设有如下8样本：
Step1:首先随机选择第一个聚类中心，假设我们选到了6号。
Step2:我们计算剩下的点到6号点的距离，如下，P其中
$\frac{D(x)^{2}}{sum(D(x)^{2})}$
D(x),为样本到聚类中心的距离，Sum 为概率和
在这里插入图片描述
$D(x)^{2}$ 越大，对应的概率值越。就相当于一条线段，每个 $D(x))^{2}$ 都是上面的一个子线段，现在随机丢一个东西到这个线段上，那么子线段越长落在该区间的可能性越大，这就是K-means++算法中以概率最大选择初始化聚类中心。
求Sum的原因是，在实际的过程中，我们一般通过轮盘选择法来选择上述中的子线段，具体的操作是：随机选择0-1中的一个数，取其落入的区间即可。
加入现在random的值为0.6，那么新的聚类中心落在（0.525，0.65）这个区间内，则选择样本3作为新的聚类中心。
从上述的图表中我们可以发现，第一个聚类中心6附近的点对应的概率区间都很小，这就使得我们在选择新的样本中心时，会尽可能的选择离上个聚类中心远的点作为新的聚类中心。