[机器学习]Kmeans聚类算法和性能指标

最新推荐文章于 2025-02-23 17:38:24 发布

Je_san

最新推荐文章于 2025-02-23 17:38:24 发布

阅读量1.9w

点赞数 12

分类专栏：机器学习文章标签：机器学习 python pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Je_san/article/details/121663580

版权

本文介绍了KMeans聚类算法的基本概念、优点与缺点，并详细讨论了选择K值的方法，包括手肘法、轮廓系数和CH指标。通过Python的sklearn库展示了如何应用这些指标评估KMeans算法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、Kmeans算法及其优缺点
- 1.简单介绍
- 2.K-means的优点与缺点
二、性能指标

资料整理

一、Kmeans算法及其优缺点

跳过算法原理

1.简单介绍

Kmeans算法是基于划分的聚类算法，其优化目标是同类的点尽量近，类间的点尽量远。

需要做的是（1）给定聚类个数K（2）选择K个初始点，可以是随机值，也可以是随机的样本点（3）迭代至终止条件

经典K-means算法具体流程，基于贪心策略

（1）随机地选择k个初始点，每个点代表了一个簇的中心；

（2）对每个样本，将它分配给最近的簇；

（3）重新计算每个簇的平均值，更新为新的簇中心；

（4）不断重复2、3，直到达到某个终止条件。
这个终止条件可以是：没有（或最小数目）对象被重新分配给不同的聚类

2.K-means的优点与缺点

优点：对于大型数据集也是简单高效、时间复杂度、空间复杂度低。
缺点：数据集大时结果容易局部最优；需要预先设定K值，对最先的K个中心点选取很敏感；对噪声和离群值非常敏感

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。