K-Means聚类算法

最新推荐文章于 2022-12-31 22:38:22 发布

stydwn

最新推荐文章于 2022-12-31 22:38:22 发布

阅读量361

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Stydwn/article/details/117627681

版权

K-Means是一种无监督学习算法，用于将数据集划分为K个簇，每个簇由其均值定义的中心。算法简单，易于实现，结果可解释性强。然而，它需要预设K值，可能陷入局部最优，并对异常点敏感。SSE（Sum of Squared Errors）是评估其性能的标准，理想的聚类是保持簇数不变下提高簇质量。

摘要由CSDN通过智能技术生成

K-Means简介

K-Means属于无监督的学习。我们通过对象和对象之间的距离远近，将数据集拆分成K个簇，每个簇有一个中心，这个中心是由簇中所含值得均值计算而成的，所以叫做K均值算法。

优点

无监督数据集，不需要准备数据集
原理简单，容易实现
结果可解释性好

缺点

需要手动设置K值（聚类的簇数），不合理K值导致缺乏解释性
可能陷入local-minima,大规模数据收敛太慢
对于异常点很敏感

K-Means伪代码

在这里插入图片描述

K-Means评价标准

判断聚类的性能，我们用Sum of Squared Error（SSE）。SSE越小表示数据点越接近于质心，聚类效果也越好。因为对误差取了平方，所以更加注重远离中心的点。一种肯定能降低SSE的办法是增加簇的个数，但违背了聚类的目标。聚类的目标就是保持簇的个数不变的情况下提高簇的质量。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K-Means聚类算法

K-Means简介K-Means属于无监督的学习。我们通过对象和对象之间的距离远近，将数据集拆分成K个簇，每个簇有一个中心，这个中心是由簇中所含值得均值计算而成的，所以叫做K均值算法。优点无监督数据集，不需要准备数据集原理简单，容易实现结果可解释性好缺点需要手动设置K值（聚类的簇数），不合理K值导致缺乏解释性可能陷入local-minima,大规模数据收敛太慢对于异常点很敏感K-Means伪代码K-Means评价标准判断聚类的性能，我们用Sum of Squared Err
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。