k均值聚类方法总结与C++实现

最新推荐文章于 2022-12-22 12:46:30 发布

masterqkk

最新推荐文章于 2022-12-22 12:46:30 发布

阅读量908

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/MasterQkk/article/details/52906617

版权

本文详细介绍了K均值聚类算法，包括基础知识如距离度量方式和划分概念，算法讲解，以及对算法的思考。K均值通过不断更新中心向量来实现样本的划分，其目标是最小化簇内的平方误差和。文章强调了初始中心向量选择、K值选取和距离度量方式的重要性，并提到在特定场景下软聚类的应用。

摘要由CSDN通过智能技术生成

聚类算法是机器学习领域非常简单同时也非常经典的算法，聚类所处理的对象是未标记的样本，所以属于无监督学习这一范畴。聚类算法从原理上大致课划分为3类：（1）基于原型的聚类（2）基于密度的聚类（3）基于层次的聚类，而在每一类下面又有好多算法，今天我要介绍的就是k均值聚类算法，它属于”基于原型聚类“这一类别。

（先提个问题：有没有发现，聚类这块的算法非常之多，比机器学习的其他分支算法明显多太多了，原因？)
首先要来了解的一个概念就是聚类，下面来谈谈聚类和分类的区别，聚类简单地说就是把相似的东西分到一组，同 Classification (分类)不同，对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)，而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在 Machine Learning 中被称作 unsupervised learning (无监督学习)。

关注