由于kmeans聚类算法对离群点或者噪音很敏感,而且适合凸规模的数据集,而且可能陷入局部最优等等问题,前辈们又提出了很多改进的算法!(总参考:机器学习(25)之K-Means聚类算法详解)
二分kmeans(bisecting K-means)算法:
思路:
1)将所有的数据看做一个簇;
2)当簇的个数小于所要求的k时候:
对每一个簇:
假设对当前的簇进行k-means聚类(k=2),计算k-means之后的
当前簇的SSE1(Sum of Squared Error);
计算剩下的簇的SSE2;
然后总的SSE=SSE1+SSE2;
选择SSE最小的簇进行k-means聚类(k=2);
以上就是二分k-means的总体思路,那么它相比较k-means有什么提升和改进呢,看看它的优点:
- 不受初始化问题的影响,而且每步都能保证得到的总体误差最小;
- 加速kmeans算法的执行速度,进行的运算有所降低;
- 《Machine Learning in action》说这种可以克服k-means收敛于局部最优,达到全局最优,但个人感觉这个算法并不能达到全局最优,有对这块比较熟悉的大佬还望不吝赐教!
参考: 机器学习算法与Python实践之(六)二分k均值聚类
k-mediods(k中心点算法)
思路:
1)随机选取k个样本作为k个簇;
2)对每一个数据点来说从k个簇中进行选择,将其归类为距离它最近的簇中;
3)此时进行质心转移操作,k-means选用的是簇中所有节点的均值,而k-mediods则选用簇内距离其他各个顶点绝对误差最小的点,作为新的质心;
4)如果新的质心与原质心相同 ,则停止;否则转回2)步骤进行循环操作!
优点:
1)相比k-means算法可以处理大规模的数据集;
2)对于离群点或者噪声,k-mediods对其没有那么敏感,离群点就不会造成划分的结果偏差太大;
3)相比k-means,k-mediods的时间复杂度提升了o(n),更快一些!
参考:K-mediods算法
Mini-batch k-means算法
思路:
1)随机选择k个样本作为k个簇,注意k的选择方法,在k-means那篇博客中有介绍k的选取方法;
2)随机选择小批量的数据集,并将其归属到距离它最近的质心中,然后更新质心;
3)当质心稳定或者达到最大迭代次数的话停止迭代!
优点
- 可以提高k-means算法的性能,降低它的时间复杂度;
参考:scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
k-means++算法
思路:
1)将所有的数据点看做一个簇,随机选择一个节点作为第一个质心;
2)对每一个节点来说,计算D(i,k),即该节点i距离不同的质心的距离,D(i)的计算方法:
然后计算每个样本被选为第k个质心簇的概率,D(i)越大被选中的概率越大,利用轮盘法进行下一个聚类中心的选择。
3)重复2)直到达到k个簇停止!
PS:
轮盘法:
在2)中,我们计算了每个样本点被选择为下一个聚类中心的概率p(x),然后呢,要怎么利用这些概率来求解呢,答案是执行加和操作,第一个点被选择的概率为p(x0),第二个点被选择的概率为[p(x0),p(x0)+p(x1)],第三个节点被选中的概率为[p(x0)+p(x1),p(x0)+p(x1)+p(x2)].,第n个节点为[∑p(xi),∑p(xj)],(i=∑(k=0~n-2),j=∑(k=0~n-1);然后随即地生成0~1之间的随机数,判断它属于哪个区间,那么该区间对应的序列号就是被选择出来的下一个聚类中心了,这样选择的话就可以使得D(x)越大的样本被选为下一个聚类样本的概率越大!
优点:
聚类结果与初始中心的选择有关系,利用k-means可以很棒的解决初始中心的依赖问题,这样可以很棒的选择初始聚类中心,然后收敛速度可以很快啦!
详见:K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比