k-means聚类算法的优缺点，以及有没有什么改进的方法？

最新推荐文章于 2024-08-11 20:52:13 发布

空字符（公众号：月来客栈）

最新推荐文章于 2024-08-11 20:52:13 发布

阅读量1.1w

点赞数 1

分类专栏：机器学习文章标签：聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_lastest/article/details/105230374

版权

机器学习专栏收录该内容

43 篇文章 5 订阅

订阅专栏

这是最近在某呼收到的一个提问“k-means聚类算法的优缺点，以及有没有什么改进的方法？”下面就来谈谈自己的观点。

优点： 应用广泛，速度快，鲁棒性强；对于未知特性的数据集都可以先用K-means去试试。

缺点： 有倒是有，只是题主并没有指明哪一类缺点，所以这里就说一个方向的缺点 ”Kmeans在聚类过程中同等的看待每个特征维度”，当出现下列情况的数据集时就不能很好的处理：

当数据集中存在噪音维度。假定某个数据集有5个特征维度，但是其中一个是噪音维度。但是Kmeans在聚类过程中仍旧将其看成是正常的特征维度进行利用，而不能加以区分。因此就诞生了WKmeans聚类算法，这种方法在聚类时会给每个特征维度赋予一个权重，使得噪音维度的权重会尽可能的趋于0，以此来去除对聚类结果的影响。

但是WKmeans算法就完美了吗？当然没有，在新闻类数据集聚类中仍旧存在一个问题，即不能在不同簇中区分不同的有效维度。假定某个新闻数据集有8个特征维度，同时包含娱乐，财经，体育三个簇。对于娱乐这类新闻来说，其有效的特征维度为1，2，5维度；对财经新闻来说，其有效的特征维度为3，4，6；余下两个维度为体育新闻的有效特征维度。也就是说，对于某个簇无效的特征维度实际上就是噪音维度，但是由于每个簇的噪音维度又不一样，因此不能用WKmeans来解决。故而又出现了EWKmeans聚类算法。

总结就是，上述两种改进都可以说是朝着一个方向的，整体上还是基于Kmeans这个聚类框架来进行改进的。且同时基于Kmeans框架改进的算法还有很多，此处就当是抛砖引玉了，供题主参考。

在这里插入图片描述

引用

K-means聚类算法的优化？ https://www.zhihu.com/question/277214861/answer/1107649204

空字符（公众号：月来客栈）

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。