自Lloyd提出k-means算法以来, 虽然它没有提供准确性保证,但它的简单性和速度在实践中很有吸引力。因此, k-means算法得到了广泛的应用。本文介绍了k-means++算法,k-means++算法由Arthur 和 Vassilvitskii提出,对标准的k-means算法的初始过程进行改进,尽管简单,但却很有效。
k-means算法在上篇文章中已经推送,可以参考【数据挖掘笔记】K-均值算法及其拓展。一、k-means算法
二、k-means++算法
k-means++算法流程如下:
k-means++算法通俗地讲,流程如下:任意从n个数据对象中选取一个初始簇中心点c_1;
根据概率公式计算每一个数据对象离它最近的中心点之间的距离D(x)及其被选中为下一个中心点的概率:
选择发生概率最大的数据对象作为下一个中心点,重复上述操作,直到找到k个中心点为止。
<