数据挖掘K-means算法

最新推荐文章于 2023-03-23 15:28:54 发布

菜菜~

最新推荐文章于 2023-03-23 15:28:54 发布

阅读量933

点赞数

分类专栏：数据挖掘经典算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lrr_csdn/article/details/88351065

版权

数据挖掘经典算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 K-means的相关描述

K-means又叫K-均值算法，是非监督学习中的聚类算法。它将相似的对象归到同一簇中，簇内的对象越相似，聚类的效果就越好。其中K表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。

聚类分析试图将相似的对象归入同一簇，将不相似的对象归为不同簇，那么，显然需要一种合适的相似度计算方法，我们已知的有很多相似度的计算方法，比如欧氏距离，余弦距离，汉明距离等。事实上，我们应该根据具体的应用来选取合适的相似度计算方法。

2 K-means算法思想

选取k个初始质心（作为初始cluster，每个初始cluster只包含一个点）；
repeat：
对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster；
重新计算k个cluster对应的质心（质心是cluster中样本点的均值）；
until 质心不再发生变化

3 K-means算法优缺点

优点：

简单、快速；
KMeans擅长处理球状分布的数据，当结果聚类是密集的，而且类和类之间的区别比较明显时，K均值的效果比较好；
对大数据集有较高的效率并且是可伸缩性的。

缺点：

算法的初始中心点选择与算法的运行效率密切相关，而随机选取中心点有可能导致迭代次数很大或者限于某个局部最优状态；通常k<<n,且t<<n，所以算法经常以局部最优收敛。
K均值的最大问题是要求用户必须事先给出k的个数，k的选择一般都基于一些经验值和多次试验的结果，对于不同的数据集，k的取值没有可借鉴性。
对异常偏离的数据敏感——离群点；K均值对“噪声”和孤立点数据是敏感的，少量的这类数据就能对平均值造成极大的影响。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘K-means算法

1 K-means的相关描述 K-means又叫K-均值算法，是非监督学习中的聚类算法。它将相似的对象归到同一簇中，簇内的对象越相似，聚类的效果就越好。其中K表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。聚类分析试图将相似的对象归入同一簇，将不相似的对象归为不同簇，那么，显然需要一...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。