系统聚类及spss实例

1.定义

系统聚类法(hierarchical cluster method)又叫“分层聚类法”。聚类分析的一种方法。其做法是开始时把每个样品作为一类,然后把最靠近的样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离再合并,不断继续下去,最后把一切子类都聚合到一个大类。

2.距离计算方法

常用的系统聚类法是以距离为相似统计量时,确定新类与其他各类之间距离的方法,如最短距离法、最长距离法、中间距离法、重心法、群平均法、离差平方和法、欧氏距离等。
(1)最短距离法:类与类之间的距离等于两类最近样品之间的距离;
(2)最长距离法:类与类之间的距离等于两类最远样品之间的距离:
(3)类平均法:类与类之间的距离等于各类元素两两之间的平方距离的平均;
(4)重心法:类与类之间的距离定义为对应这两类重心之间的距离对样品分类来说,每一类的类重心就是该类样品的均值;
(5)中间距离法:最长距离法夸大了类间距离,最短距离法低估了类间距离介于两者间的距离法即为中间距离法,类与类之间的距离既不采用两类之间最近距离。也不采用最远距离,而是采用介于最远和最近之间的距离;
(6)离差平方和法(Ward法):基于方差分析的思想,如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大。

3.计算步骤

以n个样本的聚类分析为例,系统聚类法的步骤如下:
(1)定义以变量或指标的个数为维度的空间里的一种距离;
(2)计算n个样本两两之间的距离;
(3)将每个样本归为一类,根据计算出的样本间的距离合并距离最近的两类为一个新类;
(4)再计算新类与其他各类的距离,同样再根据计算出的距离合并距离最近的两类为一个新类;
(5)循环以上过程直至类别个数为1;
(6)画出各阶段的聚类图并决定类别的个数。
对于变量聚类分析,只需要将距离替换为相似系数,然后将相似系数较大的变量分别聚类即可。

4.优缺点

优点:
(1).结果可视化:系统层次聚类可以通过树状图(聚类树或谱系图)的形式展示聚类结果,使得结果更具可解释性和可视化,.
(2).不需要预先确定聚类个数:相比于K-means等算法需要预先确定聚类个数的方法,系统层次聚类不需要事先设定聚类个数,而是通过树状图的层级结构自动划分聚类。
(3).聚类结果更细致:系统层次聚类可以得到不同层级的聚类结果,从整体到细节都能得到一系列的聚类划分,提供了更多的聚类信息。
(4).对噪声和离群点具有鲁棒性:系统层次聚类对噪声和离群点的影响相对较小,因为它是基于数据间的相似度或距离来进行聚类的
缺点:
(1).计算复杂度高:系统层次聚类的计算复杂度较高,特别是当数据量较大时,计算时间会显著增加。
(2).可扩展性较差:由于计算复杂度高,系统层次聚类在大规模数据集上的可扩展性较差,不适用于处理大规模数据。
(3).对初始距离的选择敏感:系统层次聚类的结果受到初始距离的选择和测量方式的影响。不同的距离度量方法可能导致不同的聚类结
果。
(4).难以处理高维数据:系统层次聚类在处理高维数据时存在困难,因为高维空间中的距离度量容易受到维度灾难的影响。

5.SPSS实例

本文取人口数据依据人口综合情况对各省份进行分类,数据来源国家统计局。
图一 各省份历年人口数据
4.1.数据标准化处理
Z-score标准化(也叫标准分数):这是最常见的标准化方法,它将每个观测值转换为平均数为0,标准差为1的标准正态分布。公式是:
Z = (X - μ) / σ
其中,X是原始数值,μ是均值,σ是标准差。依据标准化处理规则,对数据进行标准化处理。
【1】分析——描述统计——描述

在这里插入图片描述
【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。
在这里插入图片描述
【3】返回SPSS的“数据视图”,在原始变量的最后多了一列Z开头的新变量,这个变量就是标准化后的变量了。基于此字段继续开展分析。
在这里插入图片描述
4.2.k-means聚类
(1)选择“分析-分类-系统聚类”
在这里插入图片描述
(2)变量选择标准化之后的三个人口指标,分类依据选地区,勾选系谱图(冰柱图),按需求选择距离计算方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(3)结果解读
在这里插入图片描述
根据上图,如果分成两类则西藏自治区一类,其他为一类,三类则西藏一类,贵州、宁夏等一类、广东、河南、北京等一类。更多类以此类推。

  • 18
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值