1、聚类分析概述及基本思想
聚类分析(cluster analysis)也称群分析、点群分析,是一种无监督学习,与回归分析、多元分析称为多元分析的三大方法。是一个把数据对象划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但是与其他簇中的对象不相似。由聚类分析产生的一个簇的集合叫做一个聚类。例如,可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
基本思想:
我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,满足“类内差异小,类间差异大”,这就是分类的基本思想。也就是“物以类聚”的思想。
聚类分析的特征:
分组:聚类分析的过程就是把一个数据对象分成若干个组(或者簇)的过程。
相似:组内的对象具有很高的相似性,而对于另外一些组,则要求尽可能的不相似。
评估:聚类完成后,还需要一些评价函数对聚类结果进行度量,通常涉及距离度量。
2、聚类算法的分类:
聚类分析根据分类对象的不同,可分为:
1)对指标变量进行分类称为R型聚类分析
思想:通过对变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量去描述多个随机变量之间的相关关系。然后再根据相关性的大小把变量分组,使同组内的变量之间的相关性较高,不同组变量之间的相关性较低。
优点:a)不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。b)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
2)对样本进行分类称为Q型聚类分析。
-
它的思路与R因子分析相同,只是出发点不同而已。它在计算中是从样品的相似系数矩阵出发,而R型因子分析在计算中是从样品的相关系数矩阵出发的。
优点:a)可以综合利用多个变量的信息对样本进行分类;b)分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;c)聚类分析所得到的结果比传统分类方法更细致、全面、合理。
3、聚类分析的步骤
步骤1:选择聚类分析变量;
这些变量应具备以下特点:1)和聚类分析的目标相关;2)反映了要分类对象的特征;3)在不同对象的值具有明显差异;4)变量之间不应该高度相关
对于变量高度相关的处理办法(两种):
1)在对案例聚类分析之前,先对变量进行聚类分析,在各类中选择具有代表性的变量作为聚类变量;
2)对变量做因素分析,产生一组不相关变量作为聚类变量。
步骤2:计算相似性
相似性(Similarity)是聚类分析的一个基本概念,反映了研究对象之间的亲疏程度。聚类分析就是根据研究对象之间的相似性来进行分类的。
步骤3:聚类
选定聚类方法,确定形成的类数。
步骤4:聚类结果的解释
得到聚类结果后,对结果进行验证和解释,以保证聚类解是可信的。
4、聚类算法中相似性度量(Similarity Measurement):
事物相似性的度量标准一般有两种:距离和相似性系数,距离一般用来度量样本之问的相似性;而相似性系数,一般用来度量变量之间的相似性。
采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 首先我们需要定义样品间的距离,每个样品有p个指标(变量),故每个样品可以看成p维空间中的一个点,n个样品组成p维空间中的n个点,用距离来度量样品之间接近的程度。距离测度应满足下列四个条件:
1)dij ³0;
2)dij=dji, 即距离