k-means

最新推荐文章于 2022-03-14 19:20:49 发布

里昂科科

最新推荐文章于 2022-03-14 19:20:49 发布

阅读量416

点赞数

本文链接：https://blog.csdn.net/qq_43787814/article/details/100624053

版权

k-means是一种迭代求解的聚类分析算法，通过计算对象与聚类中心的距离来分配对象并更新聚类中心，直至满足特定终止条件。该算法广泛用于数据挖掘中的无监督学习，通常由用户指定聚类数目k。算法流程包括选择初始质心、对象分配和质心更新等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

k-means

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

定义：

聚是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。
k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。

算法：

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：
1)没有（或最小数目）对象被重新分配给不同的聚类。
2)没有（或最小数目）聚类中心再发生变化。
3)误差平方和局部最小。

伪代码：
选择k个点作为