kmeans聚类算法改进

最新推荐文章于 2024-06-08 07:00:00 发布

阿华Go

最新推荐文章于 2024-06-08 07:00:00 发布

阅读量7.2k

点赞数 1

分类专栏：机器学习无监督学习文章标签：机器学习

本文链接：https://blog.csdn.net/u014038273/article/details/79450406

版权

机器学习同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

无监督学习

5 篇文章 1 订阅

订阅专栏

由于kmeans聚类算法对离群点或者噪音很敏感，而且适合凸规模的数据集，而且可能陷入局部最优等等问题，前辈们又提出了很多改进的算法！（总参考：机器学习(25)之K-Means聚类算法详解）

二分kmeans（bisecting K-means）算法：

思路：

1）将所有的数据看做一个簇；
2）当簇的个数小于所要求的k时候：
      对每一个簇：
                    假设对当前的簇进行k-means聚类（k=2），计算k-means之后的
                        当前簇的SSE1（Sum of Squared Error）；
                    计算剩下的簇的SSE2；
                    然后总的SSE=SSE1+SSE2；
        选择SSE最小的簇进行k-means聚类（k=2）；

以上就是二分k-means的总体思路，那么它相比较k-means有什么提升和改进呢，看看它的优点：

不受初始化问题的影响，而且每步都能保证得到的总体误差最小；
加速kmeans算法的执行速度，进行的运算有所降低；
《Machine Learning in action》说这种可以克服k-means收敛于局部最优，达到全局最优，但个人感觉这个算法并不能达到全局最优，有对这块比较熟悉的大佬还望不吝赐教！

参考：机器学习算法与Python实践之（六）二分k均值聚类

k-mediods（k中心点算法）

思路：
1）随机选取k个样本作为k个簇；
2）对每一个数据点来说从k个簇中进行选择，将其归类为距离它最近的簇中；
3）此时进行质心转移操作，k-means选用的是簇中所有节点的均值，而k-mediods则选用簇内距离其他各个顶点绝对误差最小的点，作为新的质心；
4）如果新的质心与原质心相同，则停止；否则转回2）步骤进行循环操作！

优点：
1）相比k-means算法可以处理大规模的数据集；
2）对于离群点或者噪声，k-mediods对其没有那么敏感，离群点就不会造成划分的结果偏差太大；
3）相比k-means，k-mediods的时间复杂度提升了o(n)，更快一些！
参考：K-mediods算法

Mini-batch k-means算法

思路：
1）随机选择k个样本作为k个簇，注意k的选择方法，在k-means那篇博客中有介绍k的选取方法；
2）随机选择小批量的数据集，并将其归属到距离它最近的质心中，然后更新质心；
3）当质心稳定或者达到最大迭代次数的话停止迭代！

优点
- 可以提高k-means算法的性能，降低它的时间复杂度；

参考：scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法

k-means++算法

思路：
1）将所有的数据点看做一个簇，随机选择一个节点作为第一个质心；
2）对每一个节点来说，计算D(i,k)，即该节点i距离不同的质心的距离，D(i)的计算方法：
这里写图片描述
然后计算每个样本被选为第k个质心簇的概率，D(i)越大被选中的概率越大，利用轮盘法进行下一个聚类中心的选择。
3）重复2）直到达到k个簇停止！

PS：
轮盘法：
在2）中，我们计算了每个样本点被选择为下一个聚类中心的概率p(x)，然后呢，要怎么利用这些概率来求解呢，答案是执行加和操作，第一个点被选择的概率为p(x0)，第二个点被选择的概率为[p(x0),p(x0)+p(x1)],第三个节点被选中的概率为[p(x0)+p(x1),p(x0)+p(x1)+p(x2)].，第n个节点为[∑p(xi),∑p(xj)]，(i=∑(k=0~n-2)，j=∑(k=0~n-1)；然后随即地生成0~1之间的随机数，判断它属于哪个区间，那么该区间对应的序列号就是被选择出来的下一个聚类中心了，这样选择的话就可以使得D(x)越大的样本被选为下一个聚类样本的概率越大！

优点：
聚类结果与初始中心的选择有关系，利用k-means可以很棒的解决初始中心的依赖问题，这样可以很棒的选择初始聚类中心，然后收敛速度可以很快啦！
详见：K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比

阿华Go

关注

1
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
kmeans聚类算法改进

由于kmeans聚类算法对离群点或者噪音很敏感，而且适合凸规模的数据集，而且可能陷入局部最优等等问题，前辈们又提出了很多改进的算法！（总参考：机器学习(25)之K-Means聚类算法详解）二分kmeans（bisecting K-means）算法：思路：1）将所有的数据看做一个簇；2）当簇的个数小于所要求的k时候：对每一个簇： ...
复制链接

扫一扫