pca主成分分析结果解释_主成分分析(PCA)在模型中的运用

14255f88aac11d442690e89f2e9ec3bc.gif

作者:王帅    封面:吉江

db3babe824cb42d644d4031257112f61.png

关于主成分分析在模型中的运用主要有以下几个方面:

(1)降维;尤其是在面对大量数据时,可以借助PCA方法提取有效的数据成分;其原理,简单的理解就是将众多变量和指标通过一定方法提取出少数几个有代表性的且互相相关性系数较低的变量。

(2)处理变量之间多重共线性的问题;

(3)确定变量的权重,将多个变量组合成“一个”变量(这在计量经济学论文中常用到,在此不做介绍)。

d40419e8733ec77ac060b72e15c7738f.png 7576fedc3ab10a72063c346531e9cf84.png

1.主成分在spss中的实现。

步骤:分析—降维—因子分析

(1)在提取方法中选择主成分即可。

cfc858256af0ebda67d18b7b87af5e9a.png

(2)在得分中,我们选择计算因子得分的方法为回归。其余保持默认即可:

288ebac5a7d9b4abc2bd009e931e8fc0.png

2.结果解释

(1)总方差解释表

58920d8e2393daf92db514f4f6fc23fe.png

本案例导入的变量有7个,通过正交矩阵变换,产生了7个新的变量,每个新变量对原数据的解释方差程度不同。这7个新变量的解释比例加总为100%。在实际中,我们要选取能够解释原始数据方差比例高的变量。通常有两个判断标准:

①特征值大于1;

②累计方差贡献率为80%以上。

本案例仅选择特征值在1以上的新变量作为主成分。从表中可以看出,前三个成分的特征值都在1以上,分别为1.037、1.168、2.664,累计方差贡献率为69.551%;也即是前三个变量解释了69.551%的总方差。当然,读者也可以根据自己的需要,选择方差累计贡献率在80%的前4个成分。

(2)成分矩阵

7708537b3f9fe2f3cdbf2d37f970f4e6.png

说明:纠正一个误区,很多文章在建模过程中会采用成分矩阵的成分系数作为各主成分的表达式的系数,虽然这没有改变主成分的性质,但是其实这并不是主成分表达式的系数。主成分回归表达式的系数为:

成分矩阵系数/特征根的平方根

如第一主成分的int_rate回归系数=第一成分矩阵系数(-0.965)/第一个特征根的平方根(2.664)。

一般而言,我们可以从这个成分系数看出新生成的各成分对于各个变量的主要解释能力。系数越高,代表对该变量的解释能力越强。如:

第一主成分当中:int_rate/grade/fico这三个变量的系数较高,说明第一主成分可以主要解释这三个变量,也即是可以“代表”这三个变量;

第二主成分当中:debt_to_income/loan_to_income这两个变量的系数较高,说明第二主成分可以“代表”这两个变量;

第三主成分当中:home/employment这两个变量的系数较高,则第三主成分主要“代表”这两个变量。

由此我们可以知晓,在这三个主成分主要“代表”那些变量,也即是那些变量在各主成分当中的重要程度是多少。

对于各主成分的系数,读者可自行将成分矩阵的系数与特征根粘贴复制在excel中去计算,在此不做演示。

(3)成分得分系数

98d2bbf0138b423f571684d4999c146c.png

该成分系数的计算方法为:成分矩阵系数/特征根。

如第一成分int_rate的成分得分系数=-0.965/2.664=-0.362,以此类推。

该表格最主要的作用是打出各变量的得分。首先写出得分函数:

第一主成分F1=-0.362*int_rate+0.358*grade+0.073*home-0.021*employment+0.314*fico_score-0.073*debt_to_income-0.08*loan_to_income。

以此类推,可以写出第二主成分和第三主成分的函数式F2、F3

只需要将原始数据各变量进行标准化后,带入这三个得分方程式就可以得到新的变量得分了。Spss软件已经将该得分计算出来,限于篇幅,仅展示部分:

40440327ef6537fa049095779bfac318.png

通过该得分我们就可以在实际运用中,我们就可以知晓客户的信用的得分,违约风险高低;也可以与原来的被解释变量进行回归,得到新的回归方程,有效的解决多重共线性问题。

与主成分方法密切相关的另一个方法是因子分析,关于因子分析将在以后的推文中再做阐述。

注:关注公众号,回复20191202即可获取案例数据3a7577d0f0bea38c949e6e431b797644.png

学堂君的历史合辑:

菜鸟系列

问卷系列

线性回归

信效度分析

聚类分析

时间序列

常见问题

神经网络

多维尺度分析

C4.5算法

生存分析

正态检验

对应分析

问卷数据分析

权重赋值

判别分析

欢迎添加:

【数据分析服务】请点击菜菜帮工作室正式上线

【社群服务助手】请点击SPSS学堂会员3群招募

【加入团队】请点击招募,我们是认真的!

3d1628bf8c9a8b999139e202d7c4363c.gif

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值