聚类分析(K-means、系统聚类和二阶聚类)的原理、实例及在SPSS中的实现(一)

目录

聚类分析的定义及原理

聚类方法及其在SPSS中的实现

总结及拓展


聚类分析的定义及原理

1.定义

       所谓物以类聚、人以群分。聚类分析,即是基于研究对象的特征,将他们分门别类,以让同类别的个体之间差异相对小、相似度相对大,不同类别之间的个体差异大、相似度小。

       聚类分析是一种探索性分析方法,与判别分析不同,聚类分析事先并不知道分类的标准,甚至不知道应该分成几类,而是会根据样本数据的特征,自动进行分类。

                      watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

          聚类与分类的不同在于,聚类所要求划分的类是未知的

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 2.原理

        假定研究对象均用所谓的“点”来表示。
        在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。
常见的是对个案分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标。

       一般的规则:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_10,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

聚类方法及其在SPSS中的实现

1.主要的聚类方法:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 2.方法详解:


(1):K-means聚类

        又称为快速聚类(K-Means Cluster),是在聚类的类别数已确定的情况下,快速将其他个案归类到相应的类别,适合大样本数据的聚类。

        具体步骤如下:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

         距离计算规则(欧几里得距离公式):
 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

         图解:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

K-means的优缺点:

优势:

(1)原理比较简单,实现也很容易,收敛速度快。

(2)在对大规模数据集进行聚类分析时,算法聚类较高效且聚类效果较好。

(3)簇与簇之间区别明显时,它的聚类效果很好。

 

不足:

(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。

(2)仅限于个案间的聚类(Q型聚类),不能对变量进行聚类。

(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。

案例分析(SPSS):
通过查询整理出了2018年我国各省份的20项基本情况,根据这些指标把这31个省市或地区分成3类。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 分析步骤:分析>>分类>>K-均值聚类>>迭代>>次数>>选项>>勾选统计>>确认

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_10,color_FFFFFF,t_70,g_se,x_16watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_10,color_FFFFFF,t_70,g_se,x_16

 结果分析:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_16,color_FFFFFF,t_70,g_se,x_16

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_12,color_FFFFFF,t_70,g_se,x_16

 若不收敛则调大迭代次数

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_16,color_FFFFFF,t_70,g_se,x_16

 方差分析表:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

         其中聚类均方对应组间均方差,误差均方对应组内均方差,显著性p<0.05时说明此变量分类效果好。由表可知,大部分变量的p<0.05,且组间均方差大于组内均方差,说明各变量在三个类别中的差异大,分类结果可信度高。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_13,color_FFFFFF,t_70,g_se,x_16

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_9,color_FFFFFF,t_70,g_se,x_16

 聚类结果解读:

第一类:1个省份(广东省,经济发达)

第二类:19个省份(云南、西藏等地区,经济一般)

第三类:11个省份(上海、北京等地区,经济较发达)

(后续会继续更新系统聚类和二阶聚类)

 

### 解决SPSS二阶聚类分析中的错误 当在SPSS中执行二阶聚类分析时遇到错误提示,通常是因为某些特定条件未满足或环境配置存在问题。对于文件夹被占用的情况,可以采取以下措施来解决问题[^2]。 #### 文件权限与路径检查 确认用于保存输出数据的目录具有足够的写入权限,并且该位置当前没有其他程序正在访问这些资源。如果可能的话,尝试更改默认的工作空间到另个磁盘分区或者网络驱动器上测试是否依然存在相同的问题。 #### 关闭无关应用程序服务 有时后台运行的应用程序可能会锁定必要的临时文件或其他依赖项,从而阻止SPSS正常工作。关闭不必要的服务软件后再重试操作可以帮助排除这类干扰因素的影响。 #### 更新安装包版本 确保使用的SPSS版本是最新的稳定发行版;旧版本可能存在已知缺陷导致此类异常行为的发生。官方发布的补丁也可能修复了与此有关的具体问题[^1]。 #### 清理缓存及重启计算机 清除浏览器历史记录以及系统级别的临时文件有助于消除潜在的数据冲突风险。另外,简单地重新启动机器往往能有效缓解由内存泄漏等原因引起的偶发性崩溃现象。 ```python import os os.system('taskkill /F /IM spss.exe') # 强制结束所有spss进程 ``` #### 使用替代方案 考虑到并非所有人都会遭遇同样的技术难题,在线社区技术论坛里分享了许多绕过原生功能限制的方法。例如手动调整输入参数设定、利用脚本批量处理任务或是借助第三方插件增强原有工具的功能特性等都是不错的思路方向[^3]。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YinHeCS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值