全面讲解聚类分析

最新推荐文章于 2025-03-13 18:16:15 发布

小懿程序员

最新推荐文章于 2025-03-13 18:16:15 发布

阅读量1.3k

点赞数 26

分类专栏： SPSS 文章标签：支持向量机机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_78499172/article/details/144172504

版权

SPSS 专栏收录该内容

1 篇文章

订阅专栏

定义：聚类分析(Cluster analysis)又叫做群集分析,通过一些属性将对象或变量分成不同的组别，在同一类下的对象或变量在这些属性上具有一些相似的特点。

无监督学习，相对来说无规划的

一、事件分类说明

Q型聚类：对个案(样品、对象、被试)进行分类。

如下列对行进行分类，分不同的车型

R型聚类：对变量进行分类。

如下列对列进行分类，哪几列可以看成是共同的特征（影响因素）合在一起

二、聚类的分类

SPSS聚类分类（简单到高级）

快速聚类(k-均值聚类)：最简单的聚类方法，只能对连续数据进行聚类，只能对样品进行聚类，适合大样本聚类，缺点不能自动确定类别数量。有时也称快速聚类
系统聚类：可以对个案、变量进行聚类，可以对连续变量或分类变量进行聚类，适合样本容量较小的情况，缺点不能自动确定类别数量。
二阶聚类：最智能的聚类方法，可以对个案进行聚类，可以对连续变量+分类变量进行聚类，适合大样本聚类，能自动确定类别数量。

（一）快速聚类(k-均值聚类)

（全局最优，不会局部最优）一个族群到了另外一个可以再到另外一个，不会固定

原理讲解

分割法中的一种

思想：使得族群内的方差和最小

给定k然后进行分割

k值选取

（1）操作要点

首先把数据标准化。

聚类数：根据计算结果来定。

迭代数：可以改大一些。

保存：“聚类成员和”与“聚类中心的距离

选项：“ANOVA”和“每个个案聚类信息

（2）结果解读

①读最终聚类中心能够反映分出来的这两类的特点，可以自己起名字。

②ANOVA显示两个或者多个类别的群体在聚类的各个变量上是否有差异，有差异说明聚类相对成功。

③个案数显示两个或者多个类别的群体各有多少个被试。最好比较均匀，不要有类别太少。

（3）三线表的制作

（二）系统聚类

又称层次聚类

1.原理讲解

1.1怎么进行分类：

凝聚法：由单个个体开始，逐步合并最“相似”的个体，直到所有个体都合并为一个族群。该方法为我们主要讨论的方法。（其实是给出路径的过程）

分离法：是凝聚法的一个相反的方向

1.2系统树图（谱系图）

表示路径，数据表示在哪个距离哪几个进行合并的。以及某两个族群的距离多少

在距离差大的地方分割合适（图中的横线最长的部分）借鉴

1.3聚类思想（不同的结果可能不太一样）

1.连接法

①简单连接/最近邻法

定义族群间的距离为两族群中相隔最近的两个体间的距离。（利用距离矩阵，不断更新）

②完全连接法/最远邻近法

以两组别中最远个体之间的距离来定义族群之间的距离。（利用距离矩阵，不断更新）

③平均连接法

两族群之间的距离定义为几A个A集合点和几B个B集合点产生的所有 nA和nB个距离数值的平均值。（同质心连接法相反：先求距离再求平均）

④质心法

两族群的距离定义为两族群各自的质心(Centroid )即样本均值向量，之间的欧式距离。（同平均连接法相反：先求平均再求距离）

缺点:

改进

2.word法

Ward法(Ward's method)/方差平方和增量法(Incremental sum of squares )由合并前后的族群内方差平方和的差异定义距离。

缺点：

一旦个体被分入一个族群，它将不可再被归入另一个族群（局部最优，不会全局最优）

一般三四十个刚好
会自己进行标准化

（1）操作要点

绘制：树状图(谱系图)

方法：“聚类方法”用“组间连接”。

“度量标准"根据数据类型选定：Q型聚类选“平方欧氏距离”,

R型聚类用“Pearson相关”

"标准化" 选定“Z得分.

分群:根据聚类类型选定。

（2）结果解读

画聚合系数随分类数变化图：以聚合系数为纵坐标，类别为横坐标，开始是N-1类。聚合系数图从哪里开始平缓就取那里的分类数。

（3）图表的制作

三、二阶聚类

（1）操作要点

分类变量和连续变量按要求填入。

距离测量：全连续变量选“欧氏”，否则选“对数似然

聚类数目：“自动确定”

输出：“透视表”、“创建聚类成员变量”

（2）结果解读

（3）图表的制作

四、总结

SPSS聚类分析的方法

（1）快速聚类(k-均值聚类)：最简单的聚类方法，只能对连续数据进行聚类，只能对样品进行聚类，适合大样本聚类，不能自动确定类别数量。

（2）系统聚类：可以对个案、变量进行聚类可以对连续变量或分类变量进行聚类，适合样本容量较小的情况，不能自动确定类别数量。

（3）二阶聚类：最智能的聚类方法，可以对个案进行聚类，可以对连续变量+分类变量进行聚类，适合大样本聚类，能自动确定类别数量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。