http://blog.csdn.net/hustlx/article/details/51362267
原文介绍了几种初始中心的方法,以及k值的选择。
初始中心选择过程中,对于第一种方法,即:
1.假设原始数据集为x,先随机选择一个数据点center_first(或者指定)
2.定义一个距离标准dist,计算dist(center_first,x)
3.选择出距离最远的那个数据点。
4.然后在迭代,寻找下一个距离之前的初始中心距离最远的点,直到指定的k值都选择完毕。
在运用这个方法的过程中,需要注意的是:
1.数据集若有离群点,那么选择的中心可能会有问题。
这一点可以通过取均值的情况得以缓解。
总体效果还可以接受