机器学习（六）--K均值算法（K-means）聚类

最新推荐文章于 2022-11-27 10:58:47 发布

过河的靴子

最新推荐文章于 2022-11-27 10:58:47 发布

阅读量737

点赞数

分类专栏：数据分析算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39640877/article/details/80833028

版权

数据分析算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、K-means算法原理

聚类的概念：一种无监督的学习，事先不知道类别，自动将相似的对象归到同一个簇中。

K-Means算法是一种聚类分析（cluster analysis）的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

K-Means算法主要解决的问题如下图所示（网上的图，原作者不清楚）。从图中可以很容易的看出来在坐标系中有四团点，但是计算机程序怎么能找出这四团点呢，于是就出现了K-Means算法。

这个算法原理其实很简单，如下图所示：

在上图的第一幅图中，有A,B,C,D,E五个点，我们想把这五个点分成两部分，也就是K=2，我们先随机生成两个灰色的的种子点，也就是我们用来找点群的点。然后分别计算ABCDE这五个点到两个点的距离，分别得出距离两个种子点比较近的点群，第二幅图中的AB分到了上面的点群，CDE分到了下面的点群。接下来我们再分别求出上面点群中几个点的几何中心，并放上新的种子点，同理得出下面点群的几何中心，放上种子点，如第三幅图所示（一开始的随机生成两个种子点就不再需要了）。再次计算新的种子点到五个点的距离，然后重复上一步，直到种子点不移动为止。

总结一下：

随机在图中取K（这里K=2）个种子点。
然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）
接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）
然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A，B，C，下面的种子点聚合了D，E）。

最后再说一下“求点群中心的算法”：欧氏距离（Euclidean Distance）：差的平方和的平方根

得到的是种子点到三个点的距离，可以对三个点画圆求交点，这个方法比较多，就不一一列举了。

K-Means主要最重大的缺陷——都和初始值有关：

K是事先给定的，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。（ISODATA算法通过类的自动合并和分裂，得到较为合理的类型数目K）

K-Means算法需要用初始随机种子点来搞，这个随机种子点太重要，不同的随机种子点会有得到完全不同的结果。（K-Means++算法可以用来解决这个问题，其可以有效地选择初始点）

总结：K-Means算法步骤：

1. 从数据中选择k个对象作为初始聚类中心;
2. 计算每个聚类对象到聚类中心的距离来划分；
3. 再次计算每个聚类中心
4. 计算标准测度函数，直到达到最大迭代次数，则停止，否则，继续操作。
5. 确定最优的聚类中心

过河的靴子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

过河的靴子 CSDN认证博客专家 CSDN认证企业博客

码龄7年

6: 原创

57万+: 周排名

139万+: 总排名

1万+: 访问

: 等级

252: 积分

5: 粉丝

15: 获赞

3: 评论

53: 收藏

私信

关注

分类专栏

最新评论

Django-ajax前后台数据传递
Llaanbin 回复 .含笑.: 我好像解决了，要设置 ajax的contentType为false，好像才可以
Django-ajax前后台数据传递
.含笑. 回复 Llaanbin: 我的也是不知道什么，data 都在 body 里面
Django-ajax前后台数据传递
Llaanbin: 朋友，我的request.POST总是为空怎么办啊，我都要崩溃了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。