SPSS中K均值聚类操作案例

最新推荐文章于 2025-02-27 23:21:47 发布

努力学习GIS1

最新推荐文章于 2025-02-27 23:21:47 发布

阅读量9.8k

点赞数 8

分类专栏： SPSS 文章标签：均值算法聚类

本文链接：https://blog.csdn.net/m0_46582608/article/details/125745778

版权

SPSS 专栏收录该内容

2 篇文章

订阅专栏

通过对2003年我国31个省、自治区和直辖市的三次产业产值数据进行K均值聚类分析，将地区分为3类。第一类包含江苏、浙江、山东和广东，产业发达；第二类包括16个地区，欠发达；第三类余下11个地区，中等发达。聚类过程中，经过三次迭代达到收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

给出我国各地区2003年三次产业产值数据，试根据三次产业产值利用K均值法对31个省、自治区和直辖市进行聚类分析（分3类）。

主要操作步骤及各选项解释如下：

（1）将变量移入 变量框 中；

将标志变量地区移入 个案标记依据框 中；

在 方法框 中选择 迭代与分类，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择仅分类，则根据初始类中心进行聚类，在聚类过程中不改变类中心）；

在聚类数后面的矩形框中输入想要把样品聚成的类数，这里输入3，即将31个地区分为3类。至于聚类中心按钮，则用于设置迭代的初始类中心。如果不手工设置，则系统会自动设置初始类中心，这里不作设置；

（2）点击迭代按钮，对迭代参数进行设置。最大迭代次数参数框 用于设定K-means算法迭代的最大次数，收敛标准参数框 用于设定算法的收敛判据，其值应该介于0和1之间。例如判据设置为0.02，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时，迭代停止。设置完这两个参数之后，只要在迭代的过程中先满足了其中的一个参数，则迭代过程就停止。这里我们选择系统默认的标准。

（3）点击保存按钮，设置保存在数据文件中的表明聚类结果的新变量。其中聚类成员选项用于建立一个代表聚类结果的变量，默认变量名为QCL_1；与聚类中心的距离 选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离, 默认变量名为QCL_2。将两个复选框都选中，单击继续按钮返回。

（4）点击选项按钮，指定要计算的统计量。选中初始聚类中心 和每个个案的聚类信息 复选框。这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的距离。

（5）点击确定按钮，得到K均值聚类分析结果。

分类结果如下：

（1）初始聚类中心

（2）迭代历史记录给出每次迭代结束后类中心的变动

从上表可以看到本次聚类过程共经历了三次迭代。由于在迭代子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0），所以在第三次迭代后，类中心的变化为0，从而迭代停止。

（3）聚类成员给出各观测量所属的类及与所属类中心的距离

聚类成员
案例号	地区	聚类	距离
1	北京	3	1385.724
2	天津	2	665.342
3	河北	3	1193.462
4	山西	2	626.991
5	内蒙古	2	226.652
6	辽宁	3	517.500
7	吉林	2	448.395
8	黑龙江	3	756.679
9	上海	3	1245.952
10	江苏	1	381.287
11	浙江	1	1693.132
12	安徽	3	1012.800
13	福建	3	94.867
14	江西	2	621.919
15	山东	1	471.444
16	河南	3	1143.947
17	湖北	3	136.039
18	湖南	3	788.131
19	广东	1	1173.076
20	广西	2	570.067
21	海南	2	761.799
22	重庆	2	321.275
23	四川	3	504.150
24	贵州	2	291.361
25	云南	2	401.637
26	西藏	2	981.691
27	陕西	2	433.741
28	甘肃	2	292.899
29	青海	2	840.178
30	宁夏	2	845.426
31	新疆	2	105.452

表中聚类列给出了观测量所属的类别，距离列给出了观测量与所属类中心的距离。

（4）最终聚类中心给出聚类结果形成的类中心的各变量值

从（3）（4）两表中可以看出31个地区被分成3类。第一类包括：江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元，属于三个产业都比较发达的地区。第二类包括：天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区，这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元，属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和2122.87亿元，属于中等发达地区。