K-Means聚类算法的4个步骤流程！

最新推荐文章于 2023-07-07 08:17:39 发布

大圣众包平台

最新推荐文章于 2023-07-07 08:17:39 发布

阅读量7.5w

点赞数 19

分类专栏： IT 程序员 IT工程师文章标签：大数据数据挖掘算法 K-Means聚类算法 K-Means

IT 同时被 3 个专栏收录

102 篇文章 2 订阅

订阅专栏

88 篇文章 1 订阅

订阅专栏

78 篇文章 0 订阅

订阅专栏

聚类分析是我们数据挖掘中常用的算法，常常用于没有分类，但又有相关相似性的样本研究当中，包括了K-Means、K-中心点和系统聚类三种算法，各自有各自的特点和适用环境。今天我们大圣众包根据网络资源详细介绍下K-Means聚类算法。

　　首先，先看看K-Means聚类算法是什么？一般来说，K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。

　　k-means算法基本步骤

　　(1)从数据中选择k个对象作为初始聚类中心;

　　(2)计算每个聚类对象到聚类中心的距离来划分；

　　(3)再次计算每个聚类中心

　　(4)计算标准测度函数，之道达到最大迭代次数，则停止，否则，继续操作。

　　K如何确定

　　与层次聚类结合，经常会产生较好的聚类结果的一个有趣策略是，首先采用层次凝聚算法决定结果粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。

　　初始质心的选取

　　常见的方法是随机的选取初始质心，但是这样簇的质量常常很差。

　　（1）多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE（误差的平方和）的簇集。这种策略简单，但是效果可能不好，这取决于数据集和寻找的簇的个数。

　　（2）取一个样本，并使用层次聚类技术对它聚类。从层次聚类中提取K个簇，并用这些簇的质心作为初始质心。该方法通常很有效，但仅对下列情况有效：样本相对较小；K相对于样本大小较小。

　　（3）取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。

　　距离的度量

　　常用的距离度量方法包括：欧几里得距离和余弦相似度。欧几里得距离度量会受指标不同单位刻度的影响，所以一般需要先进行标准化，同时距离越大，个体间差异越大；空间向量余弦夹角的相似度度量不会受指标刻度的影响，余弦值落于区间[-1,1]，值越大，差异越小。

　　质心的计算

　　对于距离度量不管是采用欧式距离还是采用余弦相似度，簇的质心都是其均值。

　　算法停止条件

　　一般是目标函数达到最优或者达到最大的迭代次数即可终止。对于不同的距离度量，目标函数往往不同。当采用欧式距离时，目标函数一般为最小化对象到其簇质心的距离的平方和；当采用余弦相似度时，目标函数一般为最大化对象到其簇质心的余弦相似度和。

　　空聚类的处理

　　如果所有的点在指派步骤都未分配到某个簇，就会得到空簇。如果这种情况发生，则需要某种策略来选择一个替补质心，否则的话，平方误差将会偏大。

　　（1）选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。

　　（2）从具有最大SSE的簇中选择一个替补的质心，这将分裂簇并降低聚类的总SSE。如果有多个空簇，则该过程重复多次。

　　适用范围及缺陷

　　K-Menas算法试图找到使平方误差准则函数最小的簇。当潜在的簇形状是凸面的，簇与簇之间区别较明显，且簇大小相近时，其聚类结果较理想。对于处理大数据集合，该算法非常高效，且伸缩性较好。

　　但该算法除了要事先确定簇数K和对初始聚类中心敏感外，经常以局部最优结束，同时对“噪声”和孤立点敏感，并且该方法不适于发现非凸面形状的簇或大小差别很大的簇。

　　克服缺点的方法：使用尽量多的数据；使用中位数代替均值来克服outlier的问题。

大圣众包平台

关注

19
点赞
踩
88

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。