4.3.1概念特征
1.含义
根据事物本身的特性研究个体分类的方法,是研究事物分类的基本方法。其是为了某种目的做的工作,并非真实存在所分的类。
2.原则
同一类中的个体相似性大,不同类中的个体差异很大。
3.分类
(1)按聚类对象分:
样品聚类:对观测量聚类,对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。
变量聚类:根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量,以便在用少量有代表性变量代替众多变量时,损失信息很少。
(2)按聚类过程分:
分解方法:首先把所有个体认为一大类,然后根据距离最近或性质相似逐层分解,直到每个个体自成小类为止。
凝聚方法:首先把每个个体认为一小类,然后根据距离最近或性质相似逐步合并,直到所有个体一个大类为止。
4.3.2内容过程
1.数据准备
这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。
2.方法选择
按分析Analyze—聚类Classify—分层聚类Hierachical Classify的顺序展开如图4.10所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变量Variable(s)框中。在聚类栏Classify选择聚类类型—观测量聚类Cases或变量聚类Variable,若做观测量聚类,还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。
单击方法选择Method功能按钮,展开对话框。
(1)聚类方法Cluster Method:定义、计算两项之间距离或相似性的方法。
组间连接:合并两类后使所有对应两项之间的平均距离最小。
组内连接:合并后使类中所有项之间的平均距离(平方)最小。
最近邻法:用两类之间最近点间的距离代表两类间的距离。
最远邻法:用两类之间最远点间的距离代表两类间的距离。
重心聚类:以计算所有各项均值间距离的方法计算两类间距离。
中位数法:以各类中的中位数为类中心。
最小方差:以类间方差最小为聚类原则。
(2)测度方法Measure:测度距离或相似性的算法。
方法一般与定义方法对应一致。聚类方法不同,测度算法相应不同,聚类结果会有区别。若方法与算法不一致,则输出警告提示,结果不能成立。
测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:
欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。
距离平方:∑(Xi-Yi)2,目的是减少误差。
相似测度:∑(XiYi)2/((∑Xi2)(∑Yi2)),即两项间的相似性是向量间的余弦,值域-1—1,用0值表示相互垂直。
皮氏相关:∑(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-1—1,0值表明非线性相关。
切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。
布氏距离:∑|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。
明氏距离:(∑|Xi-Yi|p)1/p。
自定距离:(∑|Xi-Yi|p)1/r。若r=p,则为明氏距离。
(3)数据转换Transform Values:为消除量纲不同的影响。
若参与分析的变量量纲一致,则不需标准化转换。但不同的标准化会导致不同的聚类结果,因此选择方法注意与变量分布相对应。
标准化到Z分数:变量均值为0、标准差为1,(每个值-均值)/标准差。
标准化到某范围:范围-1—1,每个值/范围。
标准化到某一值:最大值为1,每个值/最大值。
标准化到某范围:范围0—1,(每个值-最小值)/范围。
标准化到某一值:均值的一个范围,每个值/均值。
标准化到标准差:单位标准差,每个值/标准差。
(4)测度转换Transform Measure:已计算相似性或不相似性,则不需转换。
距离取绝对值:
距离顺序颠倒:相似性值与不相似性值互变。
使距离标准化:(距离-最小值)/范围。
3.输出选择
(1)统计量
在主对话框单击Statistics出现对话框。
系统默认输出凝聚状态表Agglomeration schedule,其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平,据此可以跟踪合并过程和观察接近程度。但需注意,选择不同的聚类方法、测度方法和标准化法,聚类的过程和结果不同。
还需选择输出分类结果,或指定类数Single solution,或限定类数范围Range of solution,但都取决于聚类类型选择。
(2)统计图
在主对话框单击Plot出现对话框。
树形图Dendrogram表明聚类每一步过程中被合并的类和系数值。其与凝聚状态表一致,侧重表示聚类的过程,同时直观体现聚类后的结果。
冰柱图Icicle综合聚类信息在同一图上,其侧重表示聚类的结果。可以选择观察全过程All clusters,或指定聚类范围Specified range of clusters,并需选定显示方向Orientation为纵向或横向。
两图都是确定分类结果的重要手段,但最后分类结果还需要研究者根据研究对象和研究目的自行确定。
(3)新变量
在主对话框单击Save出现对话框。
当通过统计量和统计图的分析而确定研究对象的分类结果后,需要保存分类变量在数据文件中,以便进一步分析时使用。
可选择保存单一结果Single solution,其指定类数后,变量表明每个个体聚类后所属的类。或选择指定范围结果Range of solution,其指定范围后,若干变量中每个变量均表明每个个体聚类后所属的类。
变量聚类不建立新变量。
4.分析评价
(1)聚类过程
自左至右各列依次为聚类步骤的顺序、合并的两项序号、距离的测度数值、合并的两项类号、合并结果的类号,该表详细表明了聚类过程的顺序、每步合并的来源、每次合并结果的去向、合并的依据。
选择不同的聚类方法和不同的测度算法,聚类的过程和结果均会不同,其中距离测度数值的描述方式也不同。这里因为选择皮氏相关作为距离测度方法,所以相关系数大即相似性强的两项先合并。若选择不相似性的测度方法,则可能数值小的两项先合并。
(2)聚类结果
显示按不同的分类方式给出的分类结果,具体应用哪类结果,需由聚类选择方法分析确定。
(3)聚类选择
冰柱图从“×”最少处开始逐个增加依次分类。此图可以清楚地看到所有项最后聚为一类的全过程。
树形图可以反映聚类的全过程。应用时,一般用直尺竖直放在图面上左右平移,在合并的竖线之间间隔最大距离的区间停止,则为最佳的分类方案。这时与直尺相交的每根横线就是一类,横线左端所包括的各项就是该类的成员。这样处理,各类的特点比较突出而容易定义。
两图都是确定分类结果的重要手段,但由于选择不同的聚类方法和测度算法,而造成分类的过程和结果有所不同,所以最后分类结果还需要研究者结合研究对象和研究目的自行确定。
(4)应用分析
4.3.3小结
方法(聚类、测度、标准)选择需要反复试验确定最优效果,但不同方法的结果差别不应很大,否则说明聚类变量的选择不真正反映观测量的分类特征。
观测量分类结果需要根据研究对象和研究目的由自己确定,因此一定要结合专业知识、同时认真观察原始数据特征,谨慎得出结论,并对分成各类命名。
变量聚类如何合并多个具有共同特征的变量、选择典型变量作为代表变量,主要根据专业知识、测量难易程度、变量相关系数进行。
在进行其它分析方法前,往往首先进行聚类分析,以便减少工作量、节省测量时间,又不影响分析结果;同时也是选择相互独立变量的非常实用方法。