kmeans中的k的含义_机器学习实战项目- K-Means（K-均值）聚类算法

最新推荐文章于 2023-07-01 16:03:31 发布

松直

最新推荐文章于 2023-07-01 16:03:31 发布

阅读量1.1k

点赞数

文章标签： kmeans中的k的含义

本文链接：https://blog.csdn.net/weixin_35171603/article/details/112453957

版权

K-Means是一种无监督学习的聚类算法，用于将数据点分配到K个簇中。K值由用户指定，每个簇的质心是簇内点的均值。算法包括初始化质心、分配数据点到最近的簇并更新质心等步骤。局部最小值问题可能导致非全局最优解，二分K-Means算法通过不断划分簇以降低SSE来缓解此问题。

摘要由CSDN通过智能技术生成

K-Means 算法

聚类是一种无监督的学习, 它将相似的对象归到一个簇中, 将不相似对象归到不同簇中.

相似这一概念取决于所选择的相似度计算方法.

K-Means 是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成.

簇个数 K 是用户指定的, 每一个簇通过其质心(centroid), 即簇中所有点的中心来描述.

聚类与分类算法的最大区别在于, 分类的目标类别已知, 而聚类的目标类别是未知的.

优点: 容易实现缺点:可能收敛到局部最小值, 在大规模数据集上收敛较慢使用数据类型 : 数值型数据

K-Means 场景

主要用来聚类, 但是类别是未知的.

例如: 对地图上的点进行聚类.

K-Means 术语

有关簇和质心术语更形象的介绍, 请参考下图:

K-Means 工作流程

首先, 随机确定 K 个初始点作为质心(不是数据中的点).
然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇. 这一步完成之后, 每个簇的质心更新为该簇说有点的平均值.

上述过程的伪代码如下:

关注