二分的kmeans、Kmeans++、_km++ 二分类算法-CSDN博客

本文链接：https://blog.csdn.net/qq_36134318/article/details/80409131

本文详细介绍了二分KMeans算法的思想，包括其降低聚类代价函数的原则，以及如何选择划分的簇。同时，讨论了二分KMeans的时间复杂度，并与K-means进行了比较。此外，还提到了KMeans++算法，这是一种为了解决K-Means初始化问题而提出的改进方法，其选择聚类中心的策略确保了点与已有中心的距离较远，提高了聚类质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.二分KMeans：

算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目k为止。以上隐含的一个原则就是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次划分，因为误差平方和越大，表示该簇聚类效果越不好，越有可能是多个簇被当成了一个簇，所以我们首先需要对这个簇进行划分。

伪代码：

初始化簇表，使之包含由所有的点组成的簇。
repeat
   {对选定的簇进行多次二分试验}
   for i=1 to 试验次数 do
       使用基本k均值，二分选定的簇。
   endfor
   从二分试验中选择具有最小误差的两个簇。
   将这两个簇添加到簇表中。
until 簇表中包含k个簇

1.k值与整体误差平方和的关系：

k值越大，划分越细，（x-x1）越小，则整体误差平方和越小；

所以，k值固定时，“误差平方和”可以量化聚类效果；

轮廓系数可以比较不同k值下划分效果，ai表示簇内距离，bi表示簇外距离，

一般情况下，k值增大（=2,3,4,5...）会使轮廓系数，先增大，后减小，慢慢接近0；不同情况下，临界点不同；

2.二分kmeans算法过程中，可以k=1,2,3....的结果，

所以，当你不知道分成几个簇的时候，可以使用二分kmeans算法；

算法意图在于得到k=2,3...时，整体SSE（簇内误差平方和）最小的结果；

3.每次选择要划分的簇时，简单的操作：