K-means聚类算法

最新推荐文章于 2023-06-06 20:47:14 发布

saltriver

最新推荐文章于 2023-06-06 20:47:14 发布

阅读量6k

点赞数 5

分类专栏：机器学习文章标签：非监督学习 K-means算法

本文链接：https://blog.csdn.net/saltriver/article/details/76038467

版权

机器学习专栏收录该内容

22 篇文章 39 订阅

订阅专栏

K-means算法是最简单的非监督学习算法，主要用于解决已知数据的聚类问题。其基本过程如下：
（1）预先指定数值k；将数据集分成k个簇。
（2）随机确定k个中心位置点。
（3）计算各个数据点与k个中心点的距离。
（4）根据距离排序将该数据点分配给最邻近的中心，形成k个簇。
（5）计算每个簇的平均位置，作为新的中心点。
（6）重复步骤3-5直到簇不发生变化或达到最大迭代次数。
一、算法过程
下面结合图例给出其算法过程：
设平面上有如下的数据集（共有9个数据），需要将其进行聚类。
这里写图片描述
（1）指定k=3，将数据集聚成3类。
（2）随机生成k=3个中心点。

（3）计算这9个数据点分别到3个中心点的距离。
（4）对这些距离进行排序，将9个数据点按照距离最近原则将其聚类到相应的中心点。

如图所示，本次聚类：1,2,3归为了一类；4,5归为了一类；6,7,8,9归为了一类。
（5）计算每一类中的平均位置。例如数据点4,5作为一类，其坐标分别为（20,20），（22,21），则平均位置为（21,20.5），将这个平均位置作为新的中心位置。
这里写图片描述
（6）再次计算这9个数据点分别到3个新中心点的距离。
（7）对这些距离进行排序，将9个数据点按照距离最近原则将其聚类到相应的新中心点。

如图所示，本次聚类：1,2,3归为了一类；4,5,6归为了一类；7,8,9归为了一类。
（8）再次计算每一类中的平均位置，将平均位置又作为新的中心点位置。
这里写图片描述
生成的新中心点如图所示。
（9）再次计算这9个数据点分别到3个新中心点的距离。
（10）对这些距离进行排序，将9个数据点按照距离最近原则将其聚类到相应的新中心点。
本次聚类：1,2,3归为了一类；4,5,6归为了一类；7,8,9归为了一类。与上次的聚类没有发生变化，算法过程结束退出。