详解 C++ 实现K-means算法

鲨鱼编程

已于 2024-04-26 09:01:19 修改

阅读量778

点赞数 29

分类专栏：人工智能精选文章 15个C++项目文章标签：算法 c++ kmeans

于 2024-04-18 08:46:09 首次发布

本文链接：https://blog.csdn.net/m0_53061304/article/details/137869240

版权

K-means算法是一种非常经典的聚类算法，其主要目的是将数据点划分为K个集群，以使得每个数据点与其所属集群的中心点（质心）的平方距离之和最小。这种算法在数据挖掘、图像处理、模式识别等领域有着广泛的应用。

K-means算法的基本原理相对简单直观。算法接受两个输入参数：一是数据集，二是用户指定的集群数量K。算法的输出是K个集群，每个集群都有其中心点以及属于该集群的数据点。

K-means算法的执行过程如下：

图解说明：

图a表示初始的数据集，在图b中随机找到两个类别质心，接着执行上述的步骤二，得到图c的两个集群，但此时明显不符合我们的要求，因此需要进行步骤三，得到新的类别质心（图d），重复的进行多次迭代（如图e和f），直到达到不错的结果。

K-means 算法是一种迭代求解的聚类分析算法，其目标是将 $n$ 个观测值划分为 $k$ （ $\leq n$ ）个聚类，以使得每个观测值属于离它最近的均值（聚类中心或聚类质心）对应的聚类，以作为聚类的标准。

数据表示

设数据集 $\{x_1, x_2, \ldots, x_n\}$ ，其中每个数据点 $x_i$ 是一个 $d$ 维向量。
聚类中心

假设我们要将数据集聚成 $k$ 类，那么就会有 $k$ 个聚类中心，记作 $\{\mu_1, \mu_2, \ldots, \mu_k\}$ 。
目标函数

K-means 算法的目标是最小化每个数据点与其所属聚类的聚类中心之间的距离之和。这个距离通常使用欧几里得距离来衡量。目标函数可以表示为：

$\sum_{j=1}^{k} \sum_{i=1}^{n} w_{ij} \| x_i - \mu_j \|^2$

其中， $w_{ij}$

关注