主成分回归之后预测_多重共线性的处理方法之二:主成分回归

在回归分析中,发现自变量间存在共线性问题,如x2与x3,x1、x4、x5。通过主成分回归方法,引入主成分prin1和prin2,构建新的回归模型,成功降低多重共线性影响,提高模型解释力。
摘要由CSDN通过智能技术生成
在经典统计学中,要求自变量互相独立,此时,才可以构建多重线性回归模型。当自变量之间存在多重共线性时,经典统计学理论认为:所建立的多重线性回归模型的质量就不高,甚至可能是不能解决实际问题或违反专业知识的回归模型(指某些回归系数的正负号不符合基本常识和专业知识要求)。这时,一个好的可行的方法是借助主成分分析(principal component analysis,PCA),采用主成分回归( principal component regression,PCR)来求回归系数。 1. 主成分回归基本步骤PCR是将作为自变量的多个定量因素转换为全部互相独立的综合变量(即主成分变量),构建定量因变量依赖所求得的“全部主成分变量”变化而变化的回归模型,这样完成的多重线性回归分析被称为“主成分回归分析。PCR是将PCA与多元回归分析结合应用的一种尝试, 该法是对普通最小二乘估计的一种改进。PCR可以处理预测变量之间的非正交性,这种非正交性导致模型的共线性。因此,PCR主要用于解决多重共线性问题。 PCR实现的具体步骤为: (1)采用PCA求自变量的主成分和主成分得分变量(将贡献率小的主成分舍去),即,求得Z=WX; (2)采用回归分析法将因变量对主成分得分变量回归,求得因变量对主成分得分变量的回归模型,即,求得y=AZ; (3)将主成分的表达式代回到回归模型中,得到标准化自变量与因变量的回归模型,即,得到y=AZ=A(WX)=BX; (4)将标准化自变量还原为原始自变量,得到原始自变量与因变量的回归模型,即,得到y=BX=Cx用SAS过程步可以完成前2步,后2步用人工计算。 2. 实例呈现某研究所调查了13名儿童的性别(x1:男=1,女=2)、年龄(x2:月)、 身高(x3:厘米)、 体重(x4:千克)、 胸围(x5:厘米)和心象面积(y:平方厘米),数据列在表1中。试分析性别、年龄、身高、体重、胸围与 心象面积的关系。                             表1  儿童心象面积研究数据

ce1fcd609735a280adf788cd197581f0.png

(1)检验自变量的共线性

              proc reg data=h.image_area;

                   model y=x1-x5/collin tol vif;

              run; 

e6c0706198c60a7b1a0bd37c4afc0ae1.png

模型总体拟合数据很好(p=0.0002,调整R方=0.92)。从参数估计结果中得知,所有自变量均对因变量y不具有统计意义(p>0.36);此外,自变量x5(胸围)回归系数为负,难以从专业上进行解释,说明自变量之间存在共线性。从共线性诊断结果知,自变量x2与x3间,还有自变量x1、x4、x4间存在较为严重的共线性(方程膨胀因子=428.93475≫10,条件指数=262.32546≫30)。

(2)回归模型的最小二乘法估计       前进法         proc reg data=h.image_area;

                  model y=x1-x5/selection=forward slentry=0.1 slstay=0.15;

               run;

d8ae950fb14bd9e07f31eb8efc7e51a9.png

      后退法       proc reg data=h.image_area;

                 model y=x1-x5/selection=backward slentry=0.1 slstay=0.15;

                run;

e7ae07870e4ea436df0a6e665f732126.png

     逐步回归法

            proc reg data=h.image_area;

                model y=x1-x5/selection=backward slentry=0.1 slstay=0.15;

            run;

ae1f78f3c142b4dcd6c35059ef68ae03.png

    最优子集法

           proc reg data=h.image_area;

               model y=x1-x5/selection=rsquare best=2 cp aic rmse adjrsq;

            run;

02bbf0584e69b21028336afba3e5ab7c.png

采用最小二乘估计的线性回归模型,前进法和 逐步回归法筛选得到的自变量均为x2(年龄),后退法筛选得到的自变量为x3(身高) 。最优子集法则显示:依据cp最小诊断原则,保留x2(取1个自变量)为最优模型;依据AIC和BIC最小诊断原则,保留x1、x3(取2个自变量)为最优模型;依据调整R方最大和均方根误差最小诊断原则,保留x1、x2、x3(取3个自变量)为最优模型。 (3)用PCA求主成分和主成分得分向量

      proc princomp data=h.image_area out=h.image_area1 prefix=prin;

         var x1-x5;

       run;

d32da485142786140c21e4949eed98bf.png

由相关系数特征值的相关矩阵可知,特征 值λ 1 =3.91829,λ 2 =0.98850,后3个特征值都小于0.1。从主成分贡献率看,前两个主成分的累积贡献率达到98.136%,即,前2个主成分包括了原来5个指标 98.136%的信息。因此,可以选择前2个主成分代替原来5个指标变量。由特征向量部分结果知,前2个主成分的表达式为: prin1=0.081528X1+0.496264X2+0.497967X3+0.502302X4            +0.496787X5 prin2=0.992544X1-0.088140X2-0.045145X3+0.032989X4            -0.062942X5 (4)用回归分析法将因变量y对前2个主成分回归

               proc reg data=h.image_area1;

                  model y=prin1 prin2/stb;

               run;

2f2596517d3cf2647aaafa2f7d596360.png

采用PCR方法拟合的模型很好地拟合了数据 (p=0.0001,调整R方=0.93)。参数估计均有显著性,即,prin1、prin2对因变量y有显著性影响。因此,因变量y在主成分 prin1和prin2上的线性回归方程是: y=58.939231+11.189244prin1-3.609333prin2 (5)将前2个主成分代入主成分回归模型

将主成分prin1和prin2的表达式代回上述回归模型中,得到应变量y对标准自变量X1~X5的线性回归模型如下:

y=58.939231-2.670185X1+5.870946X2+5.734818X35.501311X4

   +5.785850X5

这里,Xi是标准指标变量,i=1,2,3,4,5。

(6)将标准变量还原为原始自变量,得到原始自变量的回归模型结合原始自变量的均值和标准差(StD),将(5)中PCR模型中标准自变量转换为原始自变量,得到因变量y关于原始自变量 x1~x5回归方程: y=0.617559-5.14611x1+0.099217x2+0.195303x3+0.317828x4      +0.449827x5这就是采用PCR方法求得的线性回归模型。变量x5的系数估计值是0.4498,和相关系数符号一致。 3. 小结 本文旨在介绍PCR分析的概念、作用以及用SAS软件实现计算的方法。先对自变量进行PCA分析,然后将主成分变量视为新的自变量,再进行多重线性回归分析。本文实例结果表明,当自变量组存在严重的共线性时,相对普通最小二乘回归,PCR方法得出的回归模型更为合理。 当自变量间不存在简单线性相关关系时,向前法、向后方及逐步回归法计算的结果一致。当自变量间存在一定程度的线性相关关系时,前进法侧重于向模型中引入单独作用较强的变量,向后法侧重于向模型中引入联合作用较强的变量。逐步回归法介于两者之间。三种方法的共同局限性是选入或剔除自变量单纯以a水平为准,而没有从专业上去考虑。此外,当选入或剔除自变量的a水平较小时,逐步回归法选取的自变量往往过少。本文中实例表明,逐步回归法选取的变量为x2(年龄),但问题来了:凭常识都知道,儿童年龄与心象面积成正相关,该回归模型没有实际意义。 依据 AICBIC最小诊断原则、 自变量之间相关性及专业常识,与本文实例数据相匹配的最优模型为 x1(性别)、x3(身高) ,回归方程为: y=-23.75722-4.93974x1+0.76978x3 。   本文实例中,采用PCR方法拟合得出的回归方程为:y=0.617559-5.14611x1+0.099217x2+0.195303x3+0.317828x4 +0.449827x5,该回归模型虽很好地拟合了数据(p=0.0001,调整R方=0.93),但依据回归方程自变量筛选的“少而精”原则,该模型并非最优回归模型。可见,PCR没有筛选变量的能力,只是对已经确定的变量进行重新组合分配。当自变量较多(如十多个或几十个)时,直接使用PCR意义不大,必须先进行变量筛选,对有意义且相关性较强的变量进行PCR分析。总之,不要急于采取PCR分析方法,而应首先考虑改变筛选自变量策略来提升模型拟合效果。 参考文献 [1]胡良平.主成分分析应用(Ⅰ)——主成分回归分析[J].四川精神卫生,2018,31(02):128-132.

[2] 张家放. 医用多元统计方法[M]. 武汉:华中科技大学出版社,2002.

[3] 冯国双,罗凤基. 医学案例统计分析与SAS应用[M]. 北京:北京大学医学出版社,2011.

  • 5
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值