varclus变量聚类对变量有啥要求_SPSSAU教程06:聚类权重分析指标解读

54abbba61c4b63a772705e6114935e11.png

多元分析,又称多变量分析,是用于研究多个变量数据之间的关系,包括了多重回归分析、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析等。本文主要介绍其中两种常见的分析方法:聚类分析和权重分析。

1 聚类分析

聚类分析,通俗地讲,就是通过计算相关指标,将样本分为几类,使得类与类之间的差异很大,同类样本之间的差异尽可能地小。

(1)聚类分析种类

聚类分析的分类方法有很多,按功能划分可以分为两类——样本聚类(Q型聚类)和变量聚类(R型聚类)。问卷研究中,样本聚类使用频率远高于变量聚类。

按照SPSS软件的功能进行划分,聚类分析分为三类,分别是两步聚类、K-均值聚类和系统聚类(分层聚类)。三种聚类方法各有特点,具体情况如下:

2dcd14d71eb9bcd1e3fbf9842cc49bef.png

(2)操作步骤

35d2dbd744c376ddd22061a9e88a8b70.png

Step1:如果样本数据度量单位不统一,比如有的题项是以七级量表,而有的题项为五级题项。此时应该进行数据处理,即数据标准化处理。

Step2:由于K-均值聚类法的优点在于速度非常快,因此可以提前进行快速分析,计算不同类别样本数量进行简单判断聚类效果。

Step3:对比另外两种分析方法时的聚类类别数量情况,综合判断找出最优聚类结果。

Step4:分析聚类结果结合不同类别样本特征情况,对聚类类别进行有效命名。

Step5:聚类类别命名。

具体针对聚类分析,上述步骤可能并不完全适用,如果聚类变量中有分类数据,则不能使用K-均值聚类分析。

(3)指标解读

SPSSAU默认聚类分析使用K-均值聚类方法进行,以下说明均为K-means聚类分析方法

2f6547d772d75b582bd65ada7e3ddde6.png
表1:聚类类别基本情况汇总表

此表主要用于描述聚类分析的基本情况,描述聚类得出类别情况,每个类别人群数量和比例情况等。例如从上表可以看出:聚类得到3类群体,此3类群体的占比分别是35.0%, 29.7%, 35.3%。整体来看, 3类人群分布较为均匀,整体说明聚类效果较好。

bc16a1b387c39bfb28907b570a0d0ad7.png
表2:聚类类别方差分析结果

此表主要通过方差分析对比每个类别下各题项的特征,探索各个类别的差异,最终可结合各个类别特征进行类别命名。例如从上表可知:聚类类别群体对于所有研究项均呈现出显著性(P<0.05),意味着聚类分析得到的3类群体,在研究项上的特征具有明显的差异性。

9d5a478b84c76cde55cc5575ce81d3ba.png
指标说明

2 权重

权重分析,通过计算各个指标或者题项的权重得分,研究各因素或指标相对与整个体系或某一指标的重要程度。

(1)分类

量表类问卷权重研究方法通常情况下可以分为三类:主观赋权法、客观赋权法、组合赋权法。

29c2d6163b42c2749558c4ba5d6fe84d.png

主观赋权法就是根据决策者(专家)主观上对各属性的重视程度来确定属性权重的方法。

客观赋权法是根据原始数据之间的关系通过一定的数学方法来确定权重,判断结果不依赖于人的主观判断,有较强的数学理论依据。

组合赋值法是在主观赋权法(通常是AHP层次分析法)和客观赋权法(通常是因子分析或者熵值法)的权重结果基础上,综合计算出最终权重体系的方法。

用于研究权重的分析方法有很多,这里着重说明几种较为常用的方法,分别为主成分分析、熵值法。

(2)主成分分析

分析步骤

9450d996ed2a14bc9c1e67b499160a68.png

指标解读

3538b6667bbe5158e1fe71591ca7f889.png
表3:KMO 和 Bartlett 的检验结果表

6dfac2f114a54876f4a3d8e00e460546.png
指标说明

cabc648a47e8b8919109d58bc2e904d6.png
表4:方差解释率表格

a633757327547c80fdae6620c34dfefa.png
指标说明

48061fff614bea0b12134b57cc918fa7.png
表5:成分得分系数矩阵

此表用于基三每个成分得分,计算得分后,结合方差解释率,最终即得到综合得分。

(3)熵值法

b3efa8e3e60e942ce571a1106c666eca.png
表6:熵值法计算权重结果表

6570948b9d5b40c32912c5b30f08a56a.png
指标说明

其他说明:在进行熵值法之前,如果数据方向不一致时,需要进行提前数据处理,通常为正向化或者逆向化两种处理(统称为数据归一化处理)。

以上提到分析方法都可在SPSSAU中进行分析,详细说明可查看SPSSAU官网,以及可使用SPSSAU上面的案例数据,进行实际的操作分析。

相关资料

在线SPSS-SPSSAU-主成分分析

在线SPSS-SPSSAU-聚类分析

在线SPSS-SPSSAU-AHP层次分析法

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 项目背景 基于项目提供的汽车相关数据,通过聚类分析的方法实现汽车产品聚类,以构建汽车产品画像、分析产品定位、完成汽车竞品分析要求。 2. 项目数据 项目提供的汽车数据包括26个字段共205条数据,数据文件为“car_price.csv” 26个字段可以划分为类别型变量和数值型变量两种,包括汽车的长/宽/高、汽车净重、燃油系统、燃油类型、驱动类型、峰值转速、里程数、汽车价格等。 3. 项目要求 通过聚类的方法构建汽车产品画像、分析不同类别汽车的产品定位,寻找Volkswagen大众汽车的竞品品牌。 4. 项目思路 第一步:数据字段理解 根据项目所提供的数据,对数据中26个字段进行理解。结合汽车行业的相关知识,26个字段可以大致归为两类:第一类是车辆自身属性(如燃油系统、燃油类型、汽缸数、峰值转速、汽车长宽高等);第二类是车辆的市场属性(如车辆名称、车辆价格、风险评估等级)。 26个字段主要分为数值型变量和类别型变量两类。 第二步:原始数据描述性统计及变量分布可视化 对原始数据进行描述性统计并对数据中的字段分布进行可视化(详情见主文档)。通过对原始数据的观察,数据不存在缺失值、不存在重复值,“CarName”字段存在部分车辆品牌名称错误的情况。 第三步:确定聚类方法,明确聚类要求 通过对原始数据的变量观察,该数据变量主要为数值型变量和类别型变量两类,且类别型变量数量较多,常用的K-means聚类只能分析数值型变量,无法考虑类别型变量所包含的信息。二阶段聚类法适用于包含数值型和类别型变量的混合数据,因此考虑使用二阶段聚类分析数据。 二阶段聚类法的要求是:类别型变量符合多项式分布(即变量的值分属几个类别);数值型变量间要相互独立,且数值型变量近似服从正态分布。项目所给出的数据中,类别型变量符合多项式分布,因此仅需进一步观察并处理数值型变量。 第四步:特征工程 数据清洗与新变量生成。原始数据指给出了车辆的名称,没有给出车辆所属品牌,结合最终聚类分析的需要,根据“CarName”字段提取出车辆所属品牌信息,命名为“brand”。同时对品牌名称中的错误拼写进行清洗。 变量相关性分析与可视化。由于二阶段聚类要求数值型变量间相互独立,所以需要对数值型变量间的相关性进行查看与处理。相关性分析结果表示14个数值型变量之间存在高相关性情况,需要结合汽车知识背景与变量特征进行进一步处理。 高相关变量的处理——“highwaympg”和“citympg”呈高度正相关。其实不管是高速mpg还是城市mpg,其本质都是mpg指标,而且通过观察数据,二者之间的差异较小(极值、均值),因此考虑将二者合并为一个指标'mpg',计算方式为取二者均值:mpg=(highwaympg+citympg)/2; 高相关性变量的处理——“price”变量与其余变量产生高相关性的频数最多,可能是因为车辆自身属性和配置的变动会直接影响着车辆的市场价格。此外,与其他变量相比,price属性属于车辆的市场销售属性(而非车辆自身属性),在聚类中更适合作为类别型变量,对车辆的价位进行划分,因此,考虑将price变量转换为类别型变量,按照其价格分布划分为Low price(20000)三类; 高相关性变量的处理——对于其余数值型变量变量数目较多且多个变量之间存在相关性,因此考虑使用因子分析对数值型变量进行降维,以减少数值型变量的数目并使变量间相互独立。 第五步:数值型变量因子分析结果(基于SPSS实现) 利用SPSS对数值型变量进行因子分析,KMO值>0.8,巴特利球形检验p值=0,说明参与因子分析变量间存在相关性,可以进行因子分析。最终得到两个因子。 第一个因子包括:车长、车宽、车净重、引擎尺寸、车轴距、mpg、马力、车内径比。简单将该因子归纳为车辆截面与马力因子; 第二个因子包括:车高、峰值转速、车压缩比。简单将该因子归纳为车辆垂面与转速因子; 第六步:两阶段聚类及结果(基于SPSS实现) 对处理后的数据进行两阶段聚类,最终将205辆车聚为两类。 根据SPSS聚类结果,第一类中包含120条车辆数据,占总数据的58.5%;第二类中包含85条车辆数据,占总数据的41.5%。两类簇数据规模近似,没有过大或过小的类簇。 根据SPSS聚类结果,聚类质量属于“良好”范围,仍有进一步改进和优化的空间。 根据SPSS聚类结果,显著区分两类类簇的变量(重要性>0.6)按重要性大小排序依次是驱动类型、燃油系统、车辆截面与马力因子、价格范围。 汽车产品画像与产品定位 根据区分类簇的四个重要标签来对数据中的汽车产品进行产品画像与产品定位。 第一类画像:驱动类型多为fwd(前轮驱动),燃油系统多

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值