1.定义
当变量中含有对被解释变量影响不大的解释变量时,可能因为误差平方和的自由度减小而使方差的估计增大,从而影响回归预测的精度,适当的选择一个变量建立一个最优的回归方程十分重要。
逐步回归(Stepwise Regression)的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。
2.分类
在逐步回归中,提取哪些变量主要基于的假设是:在线性条件下,哪些变量组合能够解释更多的因变量变异,则将其保留。逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,二是引入新变量到回归模型中,常用的逐步型选元法有前向法、后向法、双向法。
Forward selection(前向逐步回归):
向前法的思想是变量由少到多,属于贪心算法,每次增加一个,直至没有可引入的变量为止。具体步骤如下。
-
步骤1:
对 p 个回归自变量 x 1 , x 2 , . . . , x p , x_{1},x_{2},...,x_{p}, x1,x2,...,xp, 分别同因变量 Y Y Y建立一元回归模型
Y = β 0 + β i X i + ϵ , i = 1 , . . . p Y = \beta _{0}+\beta _{i}X_{i}+\epsilon ,i = 1,...p Y=β0+βiXi+ϵ,i=1,...p
计算变量 X i X_{i} Xi,相应的回归系数的 F 检验统计量的值,记为 F 1 ( 1 ) , . . . , F p ( 1 ) F_{1}^{(1)},...,F_{p}^{(1)} F1(1),...,Fp(1),取其中的最大值 F i 1 ( 1 ) F_{i_{1}}^{(1)} Fi1(1),即
F i 1 ( 1 ) = m a x { F 1 ( 1 ) , . . . , F p ( 1 ) } F_{i_{1}}^{(1)} = max\left \{ \right.F_{1}^{(1)},...,F_{p}^{(1)}\left. \right \} Fi1(1