在经典统计学中,要求自变量互相独立,此时,才可以构建多重线性回归模型。当自变量之间存在多重共线性时,经典统计学理论认为:所建立的多重线性回归模型的质量就不高,甚至可能是不能解决实际问题或违反专业知识的回归模型(指某些回归系数的正负号不符合基本常识和专业知识要求)。这时,一个好的可行的方法是借助主成分分析(principal component analysis,PCA),采用主成分回归( principal component regression,PCR)来求回归系数。
1. 主成分回归基本步骤PCR是将作为自变量的多个定量因素转换为全部互相独立的综合变量(即主成分变量),构建定量因变量依赖所求得的“全部主成分变量”变化而变化的回归模型,这样完成的多重线性回归分析被称为“主成分回归分析。PCR是将PCA与多元回归分析结合应用的一种尝试, 该法是对普通最小二乘估计的一种改进。PCR可以处理预测变量之间的非正交性,这种非正交性导致模型的共线性。因此,PCR主要用于解决多重共线性问题。 PCR实现的具体步骤为: (1)采用PCA求自变量的主成分和主成分得分变量(将贡献率小的主成分舍去),即,求得
Z=WX; (2)采用回归分析法将因变量对主成分得分变量回归,求得因变量对主成分得分变量的回归模型,即,求得
y=AZ; (3)将主成分的表达式代回到回归模型中,得到标准化自变量与因变量的回归模型,即,得到
y=AZ=A(WX)=BX; (4)将标准化自变量还原为原始自变量,得到原始自变量与因变量的回归模型,即,得到
y=BX
=Cx。
用SAS过程步可以完成前2步,后2步用人工计算。
2. 实例呈现某研究所调查了13名儿童的性别(x1:男=1,女=2)、年龄(x2:月)、 身高(x3:厘米)、 体重(x4:千克)、 胸围(x5:厘米)和心象面积(y:平方厘米),数据列在表1中。试分析性别、年龄、身高、体重、胸围与 心象面积的关系。
表1 儿童心象面积研究数据
主成分回归之后预测_多重共线性的处理方法之二:主成分回归
最新推荐文章于 2024-04-27 09:26:39 发布