逐步回归(或逐步选择)包括在预测模型中迭代地添加和移除预测变量,以便找到数据集中的变量子集,从而产生性能最佳的模型,即降低预测误差的模型。
逐步回归有三种策略:
前向选择从模型中没有预测变量开始,迭代地添加最多的贡献预测变量,并在改进不再具有统计显着性时停止。
向后选择(或向后消除),从模型中的所有预测变量(完整模型)开始,迭代地移除最少的贡献预测变量,并在您拥有所有预测变量具有统计显着性的模型时停止。
逐步选择(或顺序替换),这是前向和后向选择的组合。从没有预测变量开始,然后依次添加最有贡献的预测变量(如前向选择)。添加每个新变量后,删除任何不再提供模型拟合改进的变量(如向后选择)。
注意,
前向选择和逐步选择可以应用于高维配置,其中样本数n不如预测变量p的数量,例如在基因组数据中。
向后选择要求样本数n大于变量数p,以便可以拟合整个模型。
计算逐步回归
有许多函数和R包用于计算逐步回归。 这些包括:stepAIC()[MASS包],由AIC选择最佳型号。 它有一个名为direction的选项,它可以采用以下值:i)“both”(对于逐步回归,前向和后向选择); “向后”(用于向后选择)和“向前”(用于向前选择)。 它返回最好的最终模型。
library(MASS)
# Fit the full model
full.model
# Stepwise regression model
step.model
trace = FALSE)
summary(step.model)
regsubse