K-均值（means聚类）算法

最新推荐文章于 2024-05-10 22:41:31 发布

JieFighting

最新推荐文章于 2024-05-10 22:41:31 发布

阅读量2.7k

点赞数

文章标签：机器学习深度学习数据挖掘

本文链接：https://blog.csdn.net/fuzhijieabc/article/details/106692403

版权

K-均值算法
在这里插入图片描述从上图中，我们可以看到，A，B，C，D，E是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。
然后，K-Means的算法如下：
1.随机在图中取K（这里K=2）个种子点。
2.然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）
3.接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）
4.然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A，B，C，下面的种子点聚合了D，E）。
这个算法很简单，但是有些细节我要提一下，求距离的公式我不说了，大家有初中毕业水平的人都应该知道怎么算的。我重点想说一下“求点群中心的算法”。
求点群中心的算法
一般来说，求点群中心点的算法你可以很简的使用各个点的X/Y坐标的平均值。不过，我这里想告诉大家另三个求中心点的的公式：
1）Minkowski Distance公式——λ可以随意取值，可以是负数，也可以是正数，或是无穷大。

2）Euclidean Distance公式——也就是第一个公式λ=2的情况

3）CityBlock Distance公式——也就是第一个公式λ=1的情况

二、应用实例
k均值算法的计算过程非常直观：
1、从D中随机取k个元素，作为k个簇的各自的中心。
2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。
3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
4、将D中全部元素按照新的中心重新聚类。
5、重复第4步，直到聚类结果不再变化。
6、将结果输出。

通俗来说：
1、K代表种子点个数（种子代表最开始划分好的类别，因此K-聚类算法属于监督学习）
2、剩下未划分的点，根据“离谁最近属于谁”的原则，将所有的点划分为K类
3、找到每一类的群中心点（算法不唯一，这里用最简单的坐标X,Y的平均值
4、把所有分好类的点按照第二步的步骤重新划分。然后再进行第三步，知道中心点位置不在变，算法结束

JieFighting

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
K-均值（means聚类）算法

K-均值算法从上图中，我们可以看到，A，B，C，D，E是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。然后，K-Means的算法如下：1.随机在图中取K（这里K=2）个种子点。2.然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）3.接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）4.然后重复第2）和第3）步，直
复制链接

扫一扫