一、K-Means算法缺陷
1. 需要预先给定k值
2. 对初始质心的选取比较敏感,不同的初始质心得到的结果可能完全不同
二、优化
1. 针对初始质心的选择问题优化:K-Means++
思想:
随机选取一个质心
repeat:
计算所有点到最近质心的距离D(x),求得被选为下一个质心的概率
根据轮盘法确定下一个质心
until 选出k个质心
repeat:
将每个点分配到距离最近的质心,形成k个簇
重新计算每个质心的位置
until 簇不发生变化或达到最大迭代次数
【注】轮盘法
根据求得的概率将[0,1]区间分为不同子区间
随机选取0~1之间的数,落在哪个区间即选取哪个点