逐步回归在维基百科上有这样的定义: Stepwise regression includes regression models in which the choice of predictive variables is carried out by an automatic procedure.也就是能自动地选取合适的变量来建立回归方程。所以我认为逐步回归与其说是一种回归方法,不如说是一种回归辅助手段,是帮助线性回归,非线性回归或其他回归方法确定最优回归方程的方法。所以其核心内容有2点:
1.根本目的是确定最优回归方程。2.关键内容:变量选择。
对于变量选择有三种常见方法:
1.Forward selection 向前选择法。即一个一个得将变量加入回归方程中。这种方法的缺点在于它不能反映后来变化的情况。因为对于某个自变量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入,它也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。也就是增加变量法,只考虑引入而不考虑剔除。
2.Backward elimination 向后消去法。即先将全部变量加入回归方程,然后根据选择标准逐一剔除。这种方法的缺点在于一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。
3.Bidirectional elimination 逐步筛选法。这种方法是前两种方法的结合,是在引入新的变量的时候考虑是否要剔除因为引入这个变量使得先前引入的变量显得不重要。
有了变量选择的方法,下面就要选择合适的选择标准。其中最常用的是F检验,也是本文后面讲解算法所使用的方法。其余的还有R-square,Akaike information criterion(AIC),Bayesian information criterion等等方法。使用R语言实现的逐步回归方法就是使用得AIC标准,来判断其过拟合程度,AIC越小,过拟合程度越低。
下面用一个具体的例子来一步一步讲解逐步回归的算法:
例1 某种水泥在凝固时放出的热量(卡/克)与水泥中下列四种化学成分有关:
: 的成分(%),
: 的成分(%),
: 的成分(%),
: 的成分(%)。
所测定数据如表1所示, 试建立与、、及的线性回归模型。
表1
试验序号 |
|
|
|
|
|
1 |
7 |
26 |
6 |
60 |
78.5 |
2 |
1 |
29 |
15 |
52 |
74.3 |
3 |
11 |
56 |
8 |
20 |
104.3 |
4 |
11 < |