SPSS中K均值聚类操作案例

给出我国各地区2003年三次产业产值数据,试根据三次产业产值利用K均值法对31个省、自治区和直辖市进行聚类分析(分3类)。

主要操作步骤及各选项解释如下:

 (1)将变量移入 变量框 中;

将标志变量 地区 移入 个案标记依据框 中;

方法框 中选择 迭代与分类,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择 仅分类,则根据初始类中心进行聚类,在聚类过程中不改变类中心);

在 聚类 后面的矩形框中输入想要把样品聚成的类数,这里输入3,即将31个地区分为3类。至于 聚类中心 按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里不作设置;

 (2)点击 迭代 按钮,对迭代参数进行设置。最大迭代次数参数框 用于设定K-means算法迭代的最大次数,收敛标准参数框 用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的一个参数,则迭代过程就停止。这里我们选择系统默认的标准。

 (3)点击 保存 按钮,设置保存在数据文件中的表明聚类结果的新变量。其中 聚类成员 选项用于建立一个代表聚类结果的变量,默认变量名为QCL_1;与聚类中心的距离 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离, 默认变量名为QCL_2。将两个复选框都选中,单击 继续 按钮返回。

 (4)点击 选项 按钮,指定要计算的统计量。选中 初始聚类中心 和 每个个案的聚类信息 复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离

(5)点击 确定 按钮,得到K均值聚类分析结果。

分类结果如下:

(1)初始聚类中心

(2)迭代历史记录给出每次迭代结束后类中心的变动

 从上表可以看到本次聚类过程共经历了三次迭代。由于在 迭代 子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。

(3)聚类成员 给出各观测量所属的类及与所属类中心的距离

聚类成员

案例号

地区

聚类

距离

1

北京      

3

1385.724

2

天津      

2

665.342

3

河北      

3

1193.462

4

山西      

2

626.991

5

内蒙古    

2

226.652

6

辽宁      

3

517.500

7

吉林      

2

448.395

8

黑龙江    

3

756.679

9

上海      

3

1245.952

10

江苏      

1

381.287

11

浙江      

1

1693.132

12

安徽      

3

1012.800

13

福建      

3

94.867

14

江西      

2

621.919

15

山东      

1

471.444

16

河南      

3

1143.947

17

湖北      

3

136.039

18

湖南      

3

788.131

19

广东      

1

1173.076

20

广西      

2

570.067

21

海南      

2

761.799

22

重庆      

2

321.275

23

四川      

3

504.150

24

贵州      

2

291.361

25

云南      

2

401.637

26

西藏      

2

981.691

27

陕西      

2

433.741

28

甘肃      

2

292.899

29

青海      

2

840.178

30

宁夏      

2

845.426

31

新疆      

2

105.452

表中 聚类列 给出了观测量所属的类别,距离列 给出了观测量与所属类中心的距离。

(4)最终聚类中心 给出聚类结果形成的类中心的各变量值

从(3)(4)两表中可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区,这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和2122.87亿元,属于中等发达地区。

  • 7
    点赞
  • 93
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
K均值聚类是一种常用的无监督学习算法,它可以将数据集的样本分成K个簇,每个簇的数据点具有相似的特征。K均值聚类背后的数学逻辑是基于样本间的相似度计算,以及簇之间的距离计算,从而最大化簇内的相似度,最小化簇间的距离,达到对数据集的有效划分。 Matlab是一种流行的数学计算软件,可以进行各种数学计算和模型建立。在Matlab,可以实现K均值聚类算法,具体步骤如下: 1. 初始化:随机选取K个样本作为簇的质心。 2. 分配:将每个数据点分配到与其距离最近的质心所在的簇。 3. 更新:重新计算每个簇的质心位置,即取簇内点的平均值作为新质心。 4. 重复步骤2和3,直到质心位置不再变化或达到预设的迭代次数。 其,样本之间的相似度可以通过欧式距离或余弦相似度进行计算,簇之间的距离可以通过质心之间的距离计算。因此,在Matlab,可以通过矩阵运算和循环等方式实现这些计算。 K均值算法聚类效果可以通过一些评价指标来衡量,如簇内平方差和、轮廓系数等。Matlab也提供了相应的函数来实现这些评价指标的计算和可视化。 总之,Matlab提供了方便快捷的工具来实现K均值聚类算法,以及评价聚类效果。用户可以根据具体的需求和问题,选择合适的算法和参数,进行数据分析和挖掘。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力学习GIS1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值