数据挖掘：模型选择——K-means

最新推荐文章于 2023-02-20 10:17:04 发布

AvenueCyy

最新推荐文章于 2023-02-20 10:17:04 发布

阅读量1.5k

点赞数 1

分类专栏：数据挖掘文章标签：聚类数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AvenueCyy/article/details/105380053

版权

本文详细介绍了K-means聚类算法，包括其基本流程、优化方法如K-Means++和elkan K-Means，以及大数据场景下的Mini Batch K-Means。此外，还探讨了聚类的相似性度量、评估指标如轮廓系数和卡林斯基-哈拉巴斯指数，并对比了K-Means与KNN的区别，最后总结了K-Means的优缺点。

摘要由CSDN通过智能技术生成

K-means介绍

K-means是一种无监督的聚类算法，根据各个样本数据间距离的大小，将样本分为K个簇。（也就是K个类别）分成K个簇后，想要达到的效果是每个簇内的点尽量相近，而簇与簇之间的距离尽量较大。

算法流程

在这里插入图片描述
如下图所示。

随机选取K个样本作为最开始的质心。这样就出现了K个不同的簇。
计算每个簇内的所有样本点的均值，将这个均值点作为新的质心。
计算所有样本到这些质心的距离，选择其中离某个簇质心最近的点作为新的簇内样本点。（因为簇内质心发生变化，所以需要对每个簇内样本点进行重新分配）。
重复2-3，直到质心的位置不再发生变化，停止迭代，完成聚类。

这里可以看到，由于质心是随机选择的，虽然通过不断的迭代，都能达到想要的效果，但这样计算成本会非常大，同时，是计算所有样本到质心的距离，这无疑又增加的训练得成本，因此，产生了多K-means优化的算法。

K-means的优化

K-Means初始化优化之K-Means++

K-Means++算法初始化质心的策略如下。（感觉像是先对初始质心点进行一个筛选……）
在这里插入图片描述

K-Means距离计算优化之elkan K-Means

elkan K-Means算法的使

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。