由于K-means 有可能会收敛到局部最优值,而无法收敛到全局最优值,影响聚类性能
一种用于度量聚类效果的指标是SSE(Sum of Squared Error,误差平方和),对应予 clusterAssment第二列
此算法的思想是,为克服K-均值算法收敛于局部最小值,我们使用二分K-均值:先将所有点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复,直到得到用户指定的簇数目为止
会用到我写的另一篇http://blog.csdn.net/skyonefly/article/details/50235735 ,[R语言实现K-Means算法数据集iris]
<span style="font-family:Comic Sans MS;font-size:14px;">#引入kmeans.r文件,以便调用其中自定义的函数
#详细见http://blog.csdn.net/skyonefly/article/details/50235735
source("E:/R programmer/kmeans.r")
#二分K-均值聚类算法
biKmea