多重共线性
在进行多重线性回归时,有一个隐含假设为各个自变量之间相互独立;若自变量之间存在线性相关关系,则称存在多重共线性。
怎么判断自变量之间存在多重共线性?常用的评价指标有两个:容许度和膨胀因子(VIF)。容许度=1-Rj^2。其中的R是第j个自变量与其余变量进行回归时的判定系数。容许度越接近1,表示多重共线性越弱。膨胀因子:膨胀因子是容许度的倒数。膨胀因子越接近1(膨胀因子理论最小值是1),表示解释变量之间的多重共线性越弱,通常膨胀因子<10是弱多重共线性。若膨胀因子>=10,说明膨胀因子存在严重多重共线性。
在SPSS中可以通过在回归分析时勾选“统计”选项卡的“共线性诊断”自动计算容许度和膨胀因子,来判断自变量是否高度相关,是否存在多重共线性问题。
多重共线性的处理方法
若自变量之间存在多重共线性就需要对自变量进行处理后才能进行回归分析,处理方法为主成分分析(Principal Component Analysis,PCA)。
1 PCA
主成分分析法是运用降维的思想将一组高度相关的自变量转换为一组相互独立的、不存在线性关系的变量,转换后的变量称为主成分,主成分可反映原始数据的大部分信息。一般在自变量个数太多或者存在严重相关关系时使用主成分分析对自变量进行处理,主成分分析一般作为研究中的一个中间环节。
2 常用统计量
主成分分析中的几个统计量:
⑴特征根。主成分特征根的大小可反映该主成分的影响力度,表示该主成分可以解释平均多少个原始变量的信息。例如若特征根λi=3.998,表示该主成分可以解释平均3.998个原始变量。若特征根λi<1表示该主成分的解释力度还不如一个原始变量的解释力度大,因此常将特征根大于1作为引入某个主成分的标准。
⑵主成分Zi的方差贡献率。主成分的方差反映该主成分含原变量总信息量的百分。
⑶累积贡献率。将k个主成分的方差贡献率按照从大到小的顺序排列,累计贡献率指前k个主成分的方差贡献率之和,反映前k个主成分可提取百分之多少的原始变量的信息。在确定主成分个数时,一般选择累积贡献率达到70%-85%的前k个主成分。
3 PCA的用途
⑴主成分评价
在进行多指标综合评价时,可使用主成分分析对指标进行浓缩、确定权重。(即用于评价指标的研究)
⑵主成分回归
在进行回归分析时,若自变量之间存在高度相关性,则可使用PCA将自变量转换为相互独立的的新的自变量。
实例分析
第一步 数据标准化
(1)依次选择【分析】→【描述统计】→【描述】,将变量y,x1,x2,x3 选入“变量”对话框,勾选“将标准化得分另存为变量”,点击“确定”。
![7a28e0cb742f65e7b79a30eadb8e71b9.png](https://i-blog.csdnimg.cn/blog_migrate/dd58be216e861b7278f5ea49c450a348.png)
数据中增加了四列新的数据:ZY,ZX1,ZX2,ZX3,即标准化后的变量。
第二步 共线性诊断
选择【分析】→【回归计】→【线性】
将ZY放入因变量中,将ZX1,ZX2,ZX3放入自变量中
![d96c8c952948669540f3dd280284a3a5.png](https://i-blog.csdnimg.cn/blog_migrate/c44ba63b15293e58e956d8a1effce94a.jpeg)
点击“统计”,勾选“共线性诊断”,点击“继续”、“确定”
![e6c62997605b3c41eb5752e316a12502.png](https://i-blog.csdnimg.cn/blog_migrate/c3c7d6f3172d4e441c848bb18b9df85d.png)
结果解读:
![b314c82be45975d0a9e1fa6ae8a02353.png](https://i-blog.csdnimg.cn/blog_migrate/ef40e31d1ba97b4e53ad3c76d27491cf.png)
决定系数R^2=0.992,说明由X1,X2,X3构成的回归模型可以解释99.2%的Y的信息,模型拟合程度高。
![611b10f274ae84a659961d03bc5ab386.png](https://i-blog.csdnimg.cn/blog_migrate/ccb55b6ce7b6b097576542ee6c13fb83.png)
方差分析结果,F=285.61,P<0.05,说明构建的回归模型有意义,至少有一个自变量的系数不为0。
![cd7da8b20b05608fa8ec7f40c7562c9b.png](https://i-blog.csdnimg.cn/blog_migrate/434c1bb279d5837e870b6a6719caa2dd.png)
X1和X3的容许度远小于1,膨胀系数远大于10,说明X1和X3存在严重多重共线性。需要对自变量进行进一步处理才能进行回归分析。
第三步 主成分分析
SPSS没有专门的主成分分析模块,是通过因子分析模块来实现的。
【分析】→【降维】→【因子分析】
将ZX1,ZX2,ZX3放入变量中
![8e2bbd43feb0cb88576131c0e211f85d.png](https://i-blog.csdnimg.cn/blog_migrate/fcd0acdc193e7f72a3b9768904fc9a67.png)
描述选项卡
![43ad3862e38efb70ffd0d2ed636b3cd6.png](https://i-blog.csdnimg.cn/blog_migrate/04c13021657921b0be9b11bc44b174b9.png)
抽取选项卡
![5e43a747444335445954042fcf172d20.png](https://i-blog.csdnimg.cn/blog_migrate/2bb767b15913a0ab72c9914ec5d46780.png)
得分选项卡
![86943a400b2731612cc7e446c76ea3dc.png](https://i-blog.csdnimg.cn/blog_migrate/48083d83cb808cf255eb4ac0eed853a2.png)
结果解读
![2f03dab41d1b21470ebc9787e3daf955.png](https://i-blog.csdnimg.cn/blog_migrate/e91d1c1f7638ed1507a4aced12633c5d.png)
变量的相关系数矩阵,越接近1相关性越强。
![32dcc9c1f858a7eff2ed25c48a1ba72d.png](https://i-blog.csdnimg.cn/blog_migrate/cbd2077109e4dc8e935af5970961fc0c.png)
“总计”即为前面讲到的特征根,“组件”即为主成分。可以看出前面两个主成分的特征根接近1,累积方差达到99.91%,即这两个主成分可以解释99.91%的原始变量的信息,因此我们可以选择提取两个主成分。
![3fcaadb2ed95edd6a57c083bfa90bf90.png](https://i-blog.csdnimg.cn/blog_migrate/4bb506c87f040b1d694b13c9b3264731.png)
因为在上一步“抽取”选项卡中,我们选择的是按照特征根>1确定主成分个数,因此这个表只显示了一个主成分。因为现在确定抽取两个主成分,所以可以重新进行一次分析,将抽取方式改为固定数量2,如下所示。
![dba84032a1a10cbc3f911a34c7a07017.png](https://i-blog.csdnimg.cn/blog_migrate/f4233a810cff76a7dabf41a14cccf219.png)
![80e0c210f001ce70a4e58e00c269cc9d.png](https://i-blog.csdnimg.cn/blog_migrate/a86219a79628b2316e59a9428684256f.png)
新的成分矩阵,因此:
![b7de155b60880b073b7b78adef461a51.png](https://i-blog.csdnimg.cn/blog_migrate/b7e0d7934a8135d12dfb3747bfb62d0e.png)
第四步 线性回归
计算新变量。【转换】→【计算变量】
![06b1577e6d997bdaa3b5d5d0c523ef35.png](https://i-blog.csdnimg.cn/blog_migrate/c2fdb3b11c9632a2fc8c41d812d8096e.jpeg)
![7443f4f4d1e21c865d8287d679c546bc.png](https://i-blog.csdnimg.cn/blog_migrate/809a81aacd2d508d9e65ad939cba43df.jpeg)
使用新变量ZY,Z1,Z2进行回归分析。
结果解读
![9431860d542e2bf56aeeccbac960acf3.png](https://i-blog.csdnimg.cn/blog_migrate/c5239dd2e63de5b84a1efb5ab6d21849.png)
决定系数R^2=0.988,模型拟合程度高。方差分析显示模型有意义,至少有一个变量的偏回归系数不为0。容许度=1,膨胀系数VIF=1,不存在共线性。t检验显示,常量无统计学意义,Z1、Z2的p值<0.05,有统计学意义。
因此,回归模型为:ZY=0.690Z1+0.191Z2
![b7de155b60880b073b7b78adef461a51.png](https://i-blog.csdnimg.cn/blog_migrate/b7e0d7934a8135d12dfb3747bfb62d0e.png)
(上面已计算出)
根据:
![7b987d6467859d9ccacf01f6fa2eaeda.png](https://i-blog.csdnimg.cn/blog_migrate/15c7a6b73269b756f5714df07aa79a64.png)
![36e108494260ce4be5bda4f2de4a5807.png](https://i-blog.csdnimg.cn/blog_migrate/dd572eb4e64ed9719008828165f7ee40.png)
还原变量,最终得到y=-9.1057+0.0727X1+0.6091X2+0.1062X3
小结
进行回归分析时,若自变量之间存在多重共线性问题,可使用主成分分析予以处理。利用PCA生成新变量,使用新变量构建回归模型,再还原回去。
共线性判断方法
若容许度远离1、膨胀系数VIF大于10,则可视为存在共线性。
主成分分析要点
主成分个数确定方法:一般可选择特征向量大于1的主成分,但是也不一定,若某个主成分的特征值接近1则也可被抽取为一个主成分;或者选择累积方差贡献率达到70-85%的前p个主成分。
计算主成分的公式:
![b7de155b60880b073b7b78adef461a51.png](https://i-blog.csdnimg.cn/blog_migrate/b7e0d7934a8135d12dfb3747bfb62d0e.png)
ZX是标准化后的变量,0.999等数字是成分矩阵中每个变量的系数,λ为每个主成分的特征根
在SPSS学堂中,回复20180614可以获取操作数据,一定要多加练习哦,继续关注我们~