KMeans聚类算法的缺陷及改进方法

最新推荐文章于 2024-06-08 07:00:00 发布

步步咏凉天

最新推荐文章于 2024-06-08 07:00:00 发布

阅读量1.4w

点赞数 7

分类专栏：机器学习文章标签：聚类算法 python 人工智能

本文链接：https://blog.csdn.net/qq_39753778/article/details/106182431

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

K-means 聚类算法
- KMeans算法的缺陷及改进方法

K-means 聚类算法

特点
- 对初始化敏感。初始点选择的不同，可能会产生不同的聚类结果
- 最终会收敛。不管初始点如何选择，最终都会收敛
算法思路

选择K个点作为初始质心  
repeat  
    将每个点指派到最近的质心，形成K个簇  
    重新计算每个簇的质心  
until 簇不发生变化或达到最大迭代次数

KMeans算法的缺陷及改进方法

(1) K-Means聚类算法需要用户事先指定聚类的个数k值.在很多时候,在对数据集进行聚类的时候,用户起初并不清楚数据集应该分为多少类合适,对k值难以估计.

改进方法—— 安徽大学李芳的硕士论文中提到了k-Means算法的k值自适应优化方法 ：可以通过在一开始给定一个适合的数值给k，通过一次K-means算法得到一次聚类中心。对于得到的聚类中心，根据得到的k个聚类的距离情况，合并距离最近的类，因此聚类中心数减小，当将其用于下次聚类时，相应的聚类数目也减小了，最终得到合适数目的聚类数。可以通过一个评判值E来确定聚类数得到一个合适的位置停下来，而不继续合并聚类中心。重复上述循环，直至评判函数收敛为止，最终得到较优聚类数的聚类结果。

（2) 对初始聚类中心敏感,选择不同的聚类中心会产生不同的聚类结果和不同的准确率.随机选取初始聚类中心的做法会导致算法的不稳定性,有可能陷入局部最优的情况.

改进方法—— K-Means++算法：假设已经选取了n个初始聚类中心(0<n<k),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心.在选取第一个聚类中心(n=1)时同样通过随机的方法.

(3) 对噪声和孤立点数据敏感,K-Means算法将簇的质心看成聚类中心加入到下一轮计算当中,因此少量的该类数据都能够对平均值产生极大影响,导致结果的不稳定甚至错误.

改进方法——离群点检测的LOF算法，通过去除离群点后再聚类，可以减少离群点和孤立点对于聚类效果的影响。

(4) 一旦集群具有复杂的几何形状，kmeans就不能很好地对数据进行聚类。

主要原因在于选取距离度量的方法。因为K-Means算法主要采用欧式距离函数度量数据对象之间的相似度,并且采用误差平方和作为准则函数,通常只能发现数据对象分布较均匀的球状簇.

改进方法：如果要处理不规则的数据，可以使用基于密度的DESCAN聚类算法。

参考文献
《Kmeans聚类算法及其评价方法和改进方向的研究》周银平　李卫国（102206　华北电力大学　北京）
https://blog.csdn.net/u013129109/article/details/80063111
https://blog.csdn.net/u010536377/article/details/50884416

步步咏凉天

关注

7
点赞
踩
61

收藏

觉得还不错? 一键收藏
0
评论
KMeans聚类算法的缺陷及改进方法

文章目录K-means 聚类算法KMeans算法的缺陷及改进方法K-means 聚类算法特点对初始化敏感。初始点选择的不同，可能会产生不同的聚类结果最终会收敛。不管初始点如何选择，最终都会收敛选择K个点作为初始质心 repeat 将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 KMeans算法的缺陷及改进方法(1) K-Means聚类算法需要用户事先指定聚类的个数k值.在很多时候,在对数据集进
复制链接

扫一扫

专栏目录