k-means聚类算法C++实现

最新推荐文章于 2024-01-14 12:38:03 发布

weixin_34375251

最新推荐文章于 2024-01-14 12:38:03 发布

阅读量243

点赞数

文章标签： c/c++ 数据结构与算法数据库

Clustering 中文翻译作“聚类”，简单地说就是把相似的东西分到一组，同 Classification （分类）不同，对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning （监督学习）。而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在 Machine Learning 中被称作 unsupervised learning （无监督学习）。

在数据挖掘中， k-means聚类算法是一种 cluster analysis （聚类分析）的算法，是一种非常简单地基于距离的聚类算法，认为每个Cluster（类）由相似的点组成而这种相似性由距离来衡量，不同Cluster间的点应该尽量不相似，每个Cluster都会有一个“重心”；另外它也是一种排他的算法，即任意点必然属于某一Cluster且只属于该Cluster。

这个算法实现过程很简单，如下图所示：