K-Means聚类法

最新推荐文章于 2024-04-12 07:10:59 发布

hu炸炸

最新推荐文章于 2024-04-12 07:10:59 发布

阅读量773

点赞数

分类专栏：机器学习

原文链接：https://zhuanlan.zhihu.com/p/113894809

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

K-Means聚类法的原理和过程：

1、确定分组数

K-Mcans聚类法中的K就是分组数，也就是我们希望通过聚类后得到多少个组类。比如我有下面六个数据，想要将这些数据分成两类，那么K=2 。

在这里插入图片描述

2、随机选择K个值作为数据中心

这个数据中心的选择是完全随机的，也就是说怎么选择都无所谓，因为这里K=2，所以我们就以A和B两个为数据中心。

为了方便理解，我们可以制作一个散点图，将A、B作为数据中心。
在这里插入图片描述

3、计算其他数值与数据中心的“距离”

既然选择了数据中心，那么它们的周围一定会有很多相似数据，怎么判断这些数据与其是不是相似呢？

这里我们要引入欧氏距离的概念，通俗点说欧氏距离就是多维空间中各个点之间的绝对距离，表明两点之间的距离远近，其公式为：

如果是普通的二维数据，这个公式就直接变成了勾股定理，因此我们算出其他6个点距离A和B的距离，谁离得更近，谁与数据中心就是同一类。

在这里插入图片描述

所以，我们可以看出，C-H距离B的距离都比距离A更近，所以第一次分组为：

第一组：A
第二组：B、C、D、E、F、G、H
4、重新选择新的数据中心

得到了第一次分组的结果，我们再重复前两个步骤，重新选择每一组数据的数据中心。

第一组只有A，所以A仍然是数据中心；
第二组有7个数值，将这个7个数值的平均值作为新的数据中心，我们将其命名为P，计算平均坐标为（5.14 ，5.14）
5、再次计算其他数据与新数据中心的距离

还是直接计算勾股定理，计算出其他数据与A和P的欧氏距离，如下：

我们可以看出这里面有的距离A近，有的距离P近，于是第二次分组为：
在这里插入图片描述

第一组：A、B
第二组：C、D、E、F、G、H
6、再次重新选择数据中心

这里就是老规矩了，继续重复前面的操作，将每一组数据的平均值作为数据中心：

第一组有两个值，平均坐标为（0.5 ，1），这是第一个新的数据中心，命名为O
第二组有六个值，平均值为（5.8 ， 5.6），这是第二个新的数据中心，命名为Q
7、再次计算其他数据与新数据中心的距离

这时候我们发现，只有A与B距离O的距离更近，其他6个数据都距离Q更近，因此第三次分组为：

第一组：A、B
第二组：C、D、E、F、G、H
经过这次计算我们发现分组情况并没有变化，这就说明我们的计算收敛已经结束了，不需要继续进行分组了，最终数据成功按照相似性分成了两组。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
K-Means聚类法

K-Means聚类法的原理和过程：1、确定分组数K-Mcans聚类法中的K就是分组数，也就是我们希望通过聚类后得到多少个组类。比如我有下面六个数据，想要将这些数据分成两类，那么K=2 。2、随机选择K个值作为数据中心这个数据中心的选择是完全随机的，也就是说怎么选择都无所谓，因为这里K=2，所以我们就以A和B两个为数据中心。为了方便理解，我们可以制作一个散点图，将A、B作为数据中心。3、计算其他数值与数据中心的“距离”既然选择了数据中心，那么它们的周围一定会有很多相似数据，怎么判断这些数据与
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。