主成分在spss中的操作应用

主成分分析在SPSS中的操作应用

 

 

主成分分析原理

​ 主成分分析是设法将原来众多具有一定相关性 ( 比如 PP 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 PP 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 F1F1 ( 选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即 Var(F1)Var(F1) 越大, 表示 F1F1 包含的信息越多。因此在所有的线性组合中选取的 F1F1 应该是方差最大的, 故称F1F1 为第一主成分。如果第一主成分不足以代表原来 PP 个指标的信息, 再考虑选取 F2F2 即选第二个线性组合, 为了有效地反映原来信息, F1F1 已有的信息就不需要再出现在 F2F2中, 用数学语言表达就是要求 Cov(F1,F2)=0Cov(F1,F2)=0 , 则称 F2F2 为第二主成分, 依此类推可以构造出第三、第四, ⋯⋯, 第 PP 个主成分。

主成分分析法简介

​ 一项十分著名的工作是美国的统计学家斯通( ( stone) 在1947 年关于国民经济的研究。他曾利用美国 1929 一 1938年各年的数据,得到了 17 个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。

​ 在进行主成分分析后,竟以 97.4 %的精度,用三新变量就取代了原 17 个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入 F1F1 、 总收入变化率 F2F2 和经济发展或衰退的趋势 F3F3。

主成分与原始变量之间的关系:

  1. 主成分保留了原始变量绝大多数信息。
  2. 主成分的个数大大少于原始变量的数目。
  3. 各个主成分之间互不相关。
  4. 每个主成分都是原始变量的线性组合。

主成分分析数学模型

 

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪F1=a11ZX1+a21ZX2+⋯⋯+ap1ZXpF2=a12ZX1+a22ZX2+⋯⋯+ap2ZXp⋯⋯F3=a1mZX1+a2mZX2+⋯⋯+apmZXp{F1=a11ZX1+a21ZX2+⋯⋯+ap1ZXpF2=a12ZX1+a22ZX2+⋯⋯+ap2ZXp⋯⋯F3=a1mZX1+a2mZX2+⋯⋯+apmZXp

 

​ 其中a1i,a2i,⋯⋯,api(i=1,⋯⋯,m)a1i,a2i,⋯⋯,api(i=1,⋯⋯,m) 为 XX 的协方差阵∑∑的特征值多对应的特征向量, ZX1,ZX2,⋯⋯,ZXpZX1,ZX2,⋯⋯,ZXp 是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响 [ 注: 本文指的数据标准化是指 ZZ 标准化 ] 。
A=(aij)p×m=(a1,a2,⋯am,)A=(aij)p×m=(a1,a2,⋯am,) , Rai=λiaiRai=λiai , RR 为相关系数矩阵, λiλi 、aiai 是相应的特征值和单位特征向量 ,λ1≥λ2≥⋯≥λp≥0λ1≥λ2≥⋯≥λp≥0 。

进行主成分分析主要步骤如下:

  1. 根据研究问题选取指标与数据;
  2. 进行指标数据标准化( SPSS 软件 Factor 过程自动执行) ;
  3. 进行指标之间的相关性判定;
  4. 确定主成分个数 mm ;
  5. 确定主成分 FiFi 表达式;
  6. 进行主成分 FiFi 命名;
  7. 计算综合主成分值并进行评价与研究。

对沿海 10 个省市经济综合指标进行主成分分析

地区GDP人均GDP农业增加值工业增加值第三产业增加值固定资产投资基本建设投资社会消费品零售总额海关出口总额地方财政收入
辽宁5458.21300014883.31376.22258.41315.95292258.4123.7399.7
山东105501164313903502.538512288.71070.73181.9211.1610.2
河北6076.69047950.21406.72092.61161.6597.11968.345.9302.3
天津2022.62206883.9822.8960703.7361.9941.4115.7171.8
江苏10636143971122.63536.33967.223201141.33215.8384.7643.7
上海5408.84062786.22196.22755.81970.2779.32035.2320.5709
浙江7670165706802356.530652296.61180.62877.5294.2566.9
福建4682135106631047.11859964.5397.91663.3173.7272.9
广东11770150301023.94224.64793.63022.91275.55013.61843.71202
广西2437.25062591.4367995.7542.2352.71025.515.1186.7

​ 运用 SPSS 统计分析软件 Factor 过程 [2] 对沿海 10 个省市经济综合指标进行主成分分析。具体操作步骤如下:

  1. 点击:分析→降维→因子… , 弹出因子分析对话框;
    这里写图片描述
  2. 把 X1~X10X1~X10 选入变量框;
  3. 点击:描述→系数(勾选); 提取→碎石图; 得分→显示因子得分系数矩阵;最后点击确定

生成图表

​ SPSS 在调用 Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但 SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用 Descriptives 过程进行计算。
这里写图片描述

如,GDP和GDP的相关性为1,自己和自己相关性最强;人均GDP和GDP的相关性为-0.094,说明两者相关性不强;等等;
从上表可知 GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。

这里写图片描述 这里写图片描述

左图:可以看出第一个特征GDP占72.205%,前两个特征累计占84.551%;所以提取2个主成分,即m=2。
右图: 可知 GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均 GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。

方法一

用成分矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数 ;
例如:F1F1系数 a11=0.9497.220√=0.353a11=0.9497.220=0.353,F2F2中a11=0.1951.235√=0.175a11=0.1951.235=0.175

F1=0.353ZX1+0.042ZX2−0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10F1=0.353ZX1+0.042ZX2−0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10

F2=0.175ZX1−0.741ZX2+0.609ZX3−0.004ZX4+0.063ZX5−0.061ZX6−0.022ZX7+0.158ZX8−0.046ZX9−0.115ZX10F2=0.175ZX1−0.741ZX2+0.609ZX3−0.004ZX4+0.063ZX5−0.061ZX6−0.022ZX7+0.158ZX8−0.046ZX9−0.115ZX10

上式中ZXiZXi是归一化之后的数据,使用SPSS进行数据标准化,方法如下:
1. 点击:分析→描述统计→描述;
2. 将所有选项导入变量中;
3. 勾选标准化值;
这里写图片描述

生成归一化之后的Z值:
这里写图片描述
例如:求辽宁的F1=0.353∗−0.35567+0.042∗−0.31866+……+0.355∗−0.34163F1=0.353∗−0.35567+0.042∗−0.31866+……+0.355∗−0.34163;
求F2F2方法类似;
F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F1+(12.3/84.5)F2

方法二

使用成份得分矩阵求F1和F2F1和F2。
这里写图片描述
直接使用成分得分系数做为系数,如下公式:
F1=0.131ZX1+0.015ZX2−0.015ZX3+0.135ZX4+0.137ZX5+0.136ZX6+0.131ZX7+0.135ZX8+0.111ZX9+0.132ZX10F1=0.131ZX1+0.015ZX2−0.015ZX3+0.135ZX4+0.137ZX5+0.136ZX6+0.131ZX7+0.135ZX8+0.111ZX9+0.132ZX10

F2=0.158ZX1−0.667ZX2+0.548ZX3−0.004ZX4+0.056ZX5−0.055ZX6−0.020ZX7+0.142ZX8−0.041ZX9−0.104ZX10F2=0.158ZX1−0.667ZX2+0.548ZX3−0.004ZX4+0.056ZX5−0.055ZX6−0.020ZX7+0.142ZX8−0.041ZX9−0.104ZX10

F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F1+(12.3/84.5)F2

方法一结果

这里写图片描述

方法二结果

这里写图片描述

参考链接

论文:主成分分析在SPSS中的操作应用
视频:主成分分析法

转载于:https://blog.csdn.net/MissXy_/article/details/81107204

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PCA成分分析是一种统计方法,它可以通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的成分,从而实现降维。这种方法能够在保留较少信息的前提下,将多个指标转化为少数几个综合指标,这些综合指标能够更好地代表原始变量的特征。在环境学领域,PCA分析可以用来反映样本之间的总体差异和组内样本之间的变异度大小。在SPSS软件,我们可以使用菜单式的PCA分析来计算样本的成分综合得分,从而评价某种综合指标的水平。标准化是进行PCA分析的一个重要步骤,常用的标准化方法有最小-最大标准化和Z-score标准化。如果需要确定多个成分,则需要确保这些成分互不相关且方向正交。 [1 [2 [3123 #### 引用[.reference_title] - *1* *2* [基于SPSS成分分析(PCA)](https://blog.csdn.net/HUANWEIFENXI/article/details/124130347)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] - *3* [运用SPSS进行PCA成分分析(因子分析)](https://blog.csdn.net/LIsaWinLee/article/details/104781414)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值