C++实现K-means，聚类原理解析（并用在图片像素点聚类）

本文链接：https://blog.csdn.net/CY_TEC/article/details/51394467

最近用到图像中的点的聚类，于是就写了一个k-means的类。

验证的过程是将一幅图的所有点的(B, G, R)作为数据点，进行聚类。

算出K个中心类后，对图像中的每个点进行重新上色。按照类别给给每类生成一种随机色彩。

使用该类，可以自定义聚类中心K的个数、数据维度N的大小。

数据类型可以是float、int。

同时在迭代过程中，可以选择输出每次迭代的中心点信息等。

完整的工程文件在：https://github.com/SunnyCat2013/toy-k-means.git

下面分以下几个部分：

一，K-means的思路

二，基本公式与程序实现细节

三，参考

四，图像处理结果

----------------------------------------------------------------------------------------------------------------------------

K-means 算法是一种简单有效的无监督学习方法，它可以有效地将多维空间（用N表示）中的点聚成一个个紧密的簇。

K-means算法的优化目标是使求出K个中心点，使每一个点到该点的欧氏距离平方之和尽量小（不知道现在有没有什么算法能保证一定得到全局最优解）。

简单来说就是把一个分到一个类中的所有数据点的每一维相加，得一个向量。然后，该向量的每一维除以该类的点的个数。这样得的向量就是该类的中心(centroid).

算法的思路如下：

1. 初始化K个中心点。

这K个点可以是在所有输入数据点中随机抽取的，也可以是取前K个点，也可以是从N维空间中任意一个点。这些点和数据点之间的距离只要不是相差的太离谱都没有关系。

2. 对任意一个数据点，求与它最近的中心点，并认为该数据点属于该中心点所代表的类。对于M(假设共有M个数据点）个数据点，分别计算每个点与K个当前的中心点的欧氏距离平方值，点x_i与哪个中心点（如c_j）的欧氏距离平方最小那么它就分成该类。（该过程可以求出一些指标，用于终止程序。如，求出整体欧氏距离之和）

一般暴力的方法是要计算M * K次欧氏距离。《An Efficient k-Means Clustering Algorithm:Analysis and Implementation》提供了一种利用KD树的超子空间到K个点心点的距离对中心点进行减枝的方法。它的主要思想是，将一个KD树中的子空间作为一个超球面的中心点，以K个中心点中到子空间中心最近的距离为半径形成了一个新的超球面，用这个超球面将当前的K个中心点分成两部分：与该子空间的最近中心点的待选集合与不可能是该子空间中任意一点的最近中心点的集合。

3. 更新每个类的中心点。

4. 由 2 得出的指标判断是否可以终止：否，进行 2 ；是，终止，并给出中心点信息。

----------------------------------------------------------------------------------------------------------------------------

程序实现细节