做回归的时候经常头痛的一个问题就是变量的选择,好多人一放一大堆变量但是结果做出来都没意义,这个时候你可以试试让算法给你选择最优的自变量组合哟。
那么今天要写的就是回归时筛选变量的逐步法:
The stepwise regression (or stepwise selection) consists of iteratively adding and removing predictors, in the predictive model, in order to find the subset of variables in the data set resulting in the best performing model, that is a model that lowers prediction error.
逐步法又分三种策略:
- 前进:就是把变量按照贡献大小一个一个的往回归模型中放,直到所有自变量都是显著的为止。
- 后退:就是把所有的自变量都放进去然后把贡献小的自变量一个一个的往出来取,直到所有的自变量都显著。
- 逐步Stepwise selection:这个就是把两种方法结合起来,先是把贡献大的变量一个一个放(前进),所有变量放完了又把没有贡献的取出来(后退)。
R语言实操
在R中能做逐步回归的方法有很多,比如:
- stepAIC() [MASS 包]
- regsubsets() [leaps 包]
- train() [caret 包]
今天我还是给大家写一个例子,这个例子我们用train来做,train()有一个可选参数 method,这个参数可以有