SPSS(十一)信息浓缩技术--主成分分析、因子分析(图文+数据集)
当我们的自变量存在多重共线性,表现为进行回归时候方程系数估计不正常以及方程检验结果不正常,也许我们可以使用变量挑选的办法(手动挑选、向前法、向后法、逐步法),但是再复杂一点其实就不行了,之前我们介绍过岭回归解决该问题,其实我们还可以使用信息浓缩的技术来解决自变量存在多重共线性问题。
本讲课程中涉及的方法其实质均为数据化简、信息浓缩,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。目的为浓缩信息(主成分分析)、目的为探讨内在结构(因子分析),正因如此,这些信息浓缩方法、特别是其中的因子分析方法,往往成为更复杂的多元分析方法的基石
主成分分析和因子分析都是对连续型的自变量进行信息浓缩,后面会讲解对分类自变量进行信息浓缩的方法--对应分析
- 主成分分析:解决变量间多重共线性(data reduction)
有太多的变量,希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析
新变量集能够更有利于简化和解释问题
- 因子分析:探讨变量内在联系和结构(structure detection)
观测变量之间的存在相互依赖关系
主成分分析
只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多重共线性而无法得出正确结论
主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标(这些指标不一定会有准确的含义),便于进一步分析,尽可能保留原始变量的信息,且彼此不相关
在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合
如有两个原始变量x1和x2,则一共可提取出两个主成分如下:
z1=b11x1+b21x2
z2=b12x1+b22x2
比如上面这张图,两个自变量存在共线性,我们提取两个主成分
原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成分已包含了90%以上的信息,其他的可以忽略不计。
在进行主成分回归时,提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。
用途:
主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。(比如高校的综合排名,收集了一系列与排名有关的自变量,之后提取两至三个主成分,加权求和给出