机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

最新推荐文章于 2024-07-05 23:11:55 发布

suipingsp

最新推荐文章于 2024-07-05 23:11:55 发布

阅读量1.1w

点赞数 5

分类专栏：机器学习文章标签：机器学习 python 聚类 k-均值聚类二分k-均值聚类

本文链接：https://blog.csdn.net/suipingsp/article/details/42495317

版权

本文详细介绍了机器学习中的聚类算法，特别是K-均值和二分K-均值聚类算法。聚类是一种无监督学习，用于将相似对象归类。K-均值算法通过最小化误差平方和来寻找最佳簇，而二分K-均值则是通过不断将簇一分为二来逐步达到指定的簇数量。文章还讨论了k值的选择、特征处理和Python实现。

摘要由CSDN通过智能技术生成

摘要

聚类是一种无监督的学习（无监督学习不依赖预先定义的类或带类标记的训练实例），它将相似的对象归到同一个簇中，它是观察式学习，而非示例式的学习，有点像全自动分类。说白了，聚类（clustering）是完全可以按字面意思来理解的——将相同、相似、相近、相关的对象实例聚成一类的过程。机器学习中常见的聚类算法包括 k-Means算法、期望最大化算法（Expectation Maximization，EM，参考“EM算法原理”）、谱聚类算法（参考机器学习算法复习-谱聚类）以及人工神经网络算法，本文阐述的是K-均值聚类算法，本文介绍K-均值（K-means）和二分K-均值聚类算法。

（一）何谓聚类

还是那句“物以类聚、人以群分”，如果预先知道人群的标签（如文艺、普通、2B），那么根据监督学习的分类算法可将一个人明确的划分到某一类；如果预先不知道人群的标签，那就只有根据人的特征（如爱好、学历、职业等）划堆了，这就是聚类算法。

聚类是一种无监督的学习（无监督学习不依赖预先定义的类或带类标记的训练实例），它将相似的对象归到同一个簇中，它是观察式学习，而非示例式的学习，有点像全自动分类。所谓簇就是该集合中的对象有很大的相似性，而不同集合间的对象有很大的相异性。簇识别（cluster identification）给出了聚类结果的含义，告诉我们这些簇到底都是些什么。通常情况下，簇质心可以代表整个簇的数据来做出决策。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。

从机器学习的角度讲，簇相当于隐藏模式，聚类与分类的最大不同在于，分类学习的实例或数据对象有类别标记，而聚类则不一样，需要由聚类学习算法自动确定标记。因为其产生的结果与分类相同，而只是类别没有预先定义，所以聚类也被称为无监督分类（unsupervised classification )。

聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分