聚类分析 - K-means - Python代码实现

最新推荐文章于 2024-06-30 09:24:04 发布

黄饱饱_bao

最新推荐文章于 2024-06-30 09:24:04 发布

阅读量3.8w

点赞数 46

分类专栏：建模-Python/ SPSS/ Matlab/... 文章标签： K-means python 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40683253/article/details/81288900

版权

本文介绍了K-means算法的基本原理和过程，包括随机选择初始质心、计算对象与质心的距离、更新质心等步骤。同时，讨论了算法的优缺点，如对大数据集的处理效率高但K值选择困难，以及对噪声和孤立点敏感。通过Python代码实现了数据读取、聚类和可视化，以帮助理解聚类效果。

摘要由CSDN通过智能技术生成

算法简介

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

算法过程如下：

1）从N个文档随机选取K个文档作为中心点；

2）对剩余的每个文档测量其到每个中心点的距离，并把它归到最近的质心的类；

3）重新计算已经得到的各个类的中心点；

4）迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束。

算法优缺点：

优点：

对处理大数据集，该算法保持可伸缩性和高效性
算法快速、简单，易于理解;

缺点：

在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的，具体应用中只能靠经验选取；
对噪声和孤立点数据敏感，导致均值偏离严重；
当数据量非常大时，算法的时间开销是非常大的；
初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果。

最低0.47元/天解锁文章

关注

46
点赞
踩
327

收藏

觉得还不错? 一键收藏
50
评论
聚类分析 - K-means - Python代码实现

算法简介K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。算法过程如下：1）从N个文档随机选取K个文档作为中心点；2）对剩余的每个文档测量其到每个中心点的距离，并把它归到最近的质心的类；3）重新计算已经得到的各个类的中心点；4...
复制链接

扫一扫

专栏目录

评论 50

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。