聚类分析理论介绍

最新推荐文章于 2025-04-16 09:52:31 发布

乐想屋

最新推荐文章于 2025-04-16 09:52:31 发布

阅读量1.1w

点赞数 9

文章标签：聚类算法 python 机器学习数据分析

本文链接：https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/84750742

版权

聚类分析是一种无监督学习方法，用于将数据对象分成相似的组或簇。基本思想是将相似程度较大的对象归为一类，不同类之间的对象差异较大。常见的聚类算法包括k-means、层次聚类和DBSCAN，每种算法有其特点和适用场景。聚类评估涉及聚类趋势、簇数确定和聚类质量测定，如霍普金斯统计量、轮廓系数等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、聚类分析概述及基本思想

聚类分析(cluster analysis)也称群分析、点群分析，是一种无监督学习，与回归分析、多元分析称为多元分析的三大方法。是一个把数据对象划分成子集的过程。每个子集是一个簇(cluster)，使得簇中的对象彼此相似，但是与其他簇中的对象不相似。由聚类分析产生的一个簇的集合叫做一个聚类。例如，可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况，将网点分为几个等级，再比较各银行之间不同等级网点数量对比状况。

基本思想：

我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，满足“类内差异小，类间差异大”，这就是分类的基本思想。也就是“物以类聚”的思想。

聚类分析的特征：

分组：聚类分析的过程就是把一个数据对象分成若干个组(或者簇)的过程。
相似：组内的对象具有很高的相似性，而对于另外一些组，则要求尽可能的不相似。
评估：聚类完成后，还需要一些评价函数对聚类结果进行度量，通常涉及距离度量。

2、聚类算法的分类：

聚类分析根据分类对象的不同，可分为：

1）对指标变量进行分类称为R型聚类分析

思想：通过对变量的相关系数矩阵内部结构的研究，找出能够控制所有变量的少数几个随机变量去描述多个随机变量之间的相关关系。然后再根据相关性的大小把变量分组，使同组内的变量之间的相关性较高，不同组变量之间的相关性较低。
优点：a）不但可以了解个别变量之间的关系的亲疏程度，而且可以了解各个变量组合之间的亲疏程度。b）根据变量的分类结果以及它们之间的关系，可以选择主要变量进行回归分析或Q型聚类分析。

2）对样本进行分类称为Q型聚类分析。

- 它的思路与R因子分析相同，只是出发点不同而已。它在计算中是从样品的相似系数矩阵出发，而R型因子分析在计算中是从样品的相关系数矩阵出发的。
- 优点：a）可以综合利用多个变量的信息对样本进行分类；b）分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果；c）聚类分析所得到的结果比传统分类方法更细致、全面、合理。

3、聚类分析的步骤