上一篇博文介绍了层次聚类算法的实现http://blog.csdn.net/c_son/article/details/43900503 ,可以发现其效率比较低下,因为每次迭代都要计算每两个聚簇之间的距离。这次的k-means算法在效率上要优于层次聚类算法。
算法实现:
1)从样本D中随机选取K个元素,作为K个簇的中心
2)分别计算剩下的元素到K个簇的距离,将这些元素归化到距离最短的簇
3)根据聚类结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均
4)将D中的元素按照新的中心重新聚类
5)重复第四步,直到中心不发生变化
6)将结果输出
这次所用的数据集还是层次聚类所使用的数据集:
A | 2 | 3 |
B | 2 | 7 |
C | 1 | 2 |
D | 1 | 6 |
E | 2 | 1 |
F | 3 | 5 |
G | 8 | 5 |
H | 9 | 6 |
I | 7 | 7 |
J | 7 | 4 |
K | 8 | 2 |