全面讲解聚类分析

定义:聚类分析(Cluster analysis)又叫做群集分析,通过一些属性将对象或变量分成不同的组别,在同一类下的对象或变量在这些属性上具有一些相似的特点。

无监督学习,相对来说无规划的

一、事件分类说明

  • Q型聚类:对个案(样品、对象、被试)进行分类。

如下列对行进行分类,分不同的车型

  • R型聚类:对变量进行分类。

如下列对列进行分类,哪几列可以看成是共同的特征(影响因素)合在一起

二、聚类的分类

SPSS聚类分类(简单到高级)

  • 快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,缺点不能自动确定类别数量。有时也称快速聚类
  • 系统聚类:可以对个案、变量进行聚类,可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,缺点不能自动确定类别数量。
  • 二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。

(一)快速聚类(k-均值聚类)

(全局最优,不会局部最优)一个族群到了另外一个可以再到另外一个,不会固定

原理讲解

分割法中的一种

思想:使得族群内的方差和最小

给定k然后进行分割

k值选取

(1)操作要点

首先把数据标准化。

聚类数:根据计算结果来定。

迭代数:可以改大一些。

保存:“聚类成员和”与“聚类中心的距离

选项:“ANOVA”和“每个个案聚类信息

(2)结果解读

①读最终聚类中心能够反映分出来的这两类的特点,可以自己起名字。

②ANOVA显示两个或者多个类别的群体在聚类的各个变量上是否有差异,有差异说明聚类相对成功。

③个案数显示两个或者多个类别的群体各有多少个被试。最好比较均匀,不要有类别太少。

(3)三线表的制作

(二)系统聚类

又称层次聚类

1.原理讲解

1.1怎么进行分类:

凝聚法:由单个个体开始,逐步合并最“相似”的个体,直到所有个体都合并为一个族群。该方法为我们主要讨论的方法。(其实是给出路径的过程)

分离法:是凝聚法的一个相反的方向

1.2系统树图(谱系图)

表示路径,数据表示在哪个距离哪几个进行合并的。以及某两个族群的距离多少

在距离差大的地方分割合适(图中的横线最长的部分)借鉴

1.3聚类思想(不同的结果可能不太一样)

1.连接法

①简单连接/最近邻法

定义族群间的距离为两族群中相隔最近的两个体间的距离。(利用距离矩阵,不断更新)

②完全连接法/最远邻近法

以两组别中最远个体之间的距离来定义族群之间的距离。(利用距离矩阵,不断更新)

③平均连接法

两族群之间的距离定义为几A个A集合点和几B个B集合点产生的所有 nA和nB个距离数值的平均值。(同质心连接法相反:先求距离再求平均)

④质心法

两族群的距离定义为两族群各自的质心(Centroid )即样本均值向量,之间的欧式距离。(同平均连接法相反:先求平均再求距离)

缺点:

改进

2.word法

Ward法(Ward's method)/方差平方和增量法(Incremental sum of squares )由合并前后的族群内方差平方和的差异定义距离。

缺点:

一旦个体被分入一个族群,它将不可再被归入另一个族群(局部最优,不会全局最优)

  • 一般三四十个刚好
  • 会自己进行标准化

(1)操作要点

绘制:树状图(谱系图)

方法:“聚类方法”用“组间连接”。

“度量标准"根据数据类型选定:Q型聚类选“平方欧氏距离”,

R型聚类用“Pearson相关”

"标准化" 选定“Z得分.

分群:根据聚类类型选定。

(2)结果解读

画聚合系数随分类数变化图:以聚合系数为纵坐标,类别为横坐标,开始是N-1类。聚合系数图从哪里开始平缓就取那里的分类数。

(3)图表的制作

三、二阶聚类

(1)操作要点

分类变量和连续变量按要求填入。

距离测量:全连续变量选“欧氏”,否则选“对数似然

聚类数目:“自动确定”

输出:“透视表”、“创建聚类成员变量”

(2)结果解读

(3)图表的制作

四、总结

SPSS聚类分析的方法

(1)快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,不能自动确定类别数量。

(2)系统聚类:可以对个案、变量进行聚类可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,不能自动确定类别数量。

(3)二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值