kmeans聚类算法改进

由于kmeans聚类算法对离群点或者噪音很敏感,而且适合凸规模的数据集,而且可能陷入局部最优等等问题,前辈们又提出了很多改进的算法!(总参考:机器学习(25)之K-Means聚类算法详解

二分kmeans(bisecting K-means)算法:

思路:

1)将所有的数据看做一个簇;
2)当簇的个数小于所要求的k时候:
      对每一个簇:
                    假设对当前的簇进行k-means聚类(k=2),计算k-means之后的
                        当前簇的SSE1(Sum of Squared Error);
                    计算剩下的簇的SSE2;
                    然后总的SSE=SSE1+SSE2;
        选择SSE最小的簇进行k-means聚类(k=2);

以上就是二分k-means的总体思路,那么它相比较k-means有什么提升和改进呢,看看它的优点:

  1. 不受初始化问题的影响,而且每步都能保证得到的总体误差最小;
  2. 加速kmeans算法的执行速度,进行的运算有所降低;
  3. 《Machine Learning in action》说这种可以克服k-means收敛于局部最优,达到全局最优,但个人感觉这个算法并不能达到全局最优,有对这块比较熟悉的大佬还望不吝赐教!

参考: 机器学习算法与Python实践之(六)二分k均值聚类

k-mediods(k中心点算法)

思路:
1)随机选取k个样本作为k个簇;
2)对每一个数据点来说从k个簇中进行选择,将其归类为距离它最近的簇中;
3)此时进行质心转移操作,k-means选用的是簇中所有节点的均值,而k-mediods则选用簇内距离其他各个顶点绝对误差最小的点,作为新的质心;
4)如果新的质心与原质心相同 ,则停止;否则转回2)步骤进行循环操作!

优点:
1)相比k-means算法可以处理大规模的数据集;
2)对于离群点或者噪声,k-mediods对其没有那么敏感,离群点就不会造成划分的结果偏差太大;
3)相比k-means,k-mediods的时间复杂度提升了o(n),更快一些!
参考:K-mediods算法

Mini-batch k-means算法

思路:
1)随机选择k个样本作为k个簇,注意k的选择方法,在k-means那篇博客中有介绍k的选取方法;
2)随机选择小批量的数据集,并将其归属到距离它最近的质心中,然后更新质心;
3)当质心稳定或者达到最大迭代次数的话停止迭代!

优点
- 可以提高k-means算法的性能,降低它的时间复杂度;

参考:scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法

k-means++算法

思路:
1)将所有的数据点看做一个簇,随机选择一个节点作为第一个质心;
2)对每一个节点来说,计算D(i,k),即该节点i距离不同的质心的距离,D(i)的计算方法:
这里写图片描述
然后计算每个样本被选为第k个质心簇的概率这里写图片描述,D(i)越大被选中的概率越大,利用轮盘法进行下一个聚类中心的选择。
3)重复2)直到达到k个簇停止!

PS:
轮盘法:
在2)中,我们计算了每个样本点被选择为下一个聚类中心的概率p(x),然后呢,要怎么利用这些概率来求解呢,答案是执行加和操作,第一个点被选择的概率为p(x0),第二个点被选择的概率为[p(x0),p(x0)+p(x1)],第三个节点被选中的概率为[p(x0)+p(x1),p(x0)+p(x1)+p(x2)].,第n个节点为[∑p(xi),∑p(xj)],(i=∑(k=0~n-2),j=∑(k=0~n-1);然后随即地生成0~1之间的随机数,判断它属于哪个区间,那么该区间对应的序列号就是被选择出来的下一个聚类中心了,这样选择的话就可以使得D(x)越大的样本被选为下一个聚类样本的概率越大!

优点:
聚类结果与初始中心的选择有关系,利用k-means可以很棒的解决初始中心的依赖问题,这样可以很棒的选择初始聚类中心,然后收敛速度可以很快啦!
详见:K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比

  • 1
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值