模型选择——子集选择法
前言
这篇文章主要讲的是模型选择(model selection)中的一类方法:子集选择法(subsect selection),接下来两篇文章将介绍模型选择的其他两类方法:收缩法(shrinkage)和降维法(dimension reduction)。
首先为什么要进行模型选择呢?以线性回归模型为例,主要出于预测准确性(prediction accuracy)和模型解释度(model interpretability)两方面的考虑。
- 模型准确性
当 n n n 没有远大于 p p p 时,利用最小二乘拟合得到的预测结果方差会很大;当 n < p n<p n<p 时,最小二乘法失效,得不到唯一的参数估计。 - 模型解释度
多元回归模型中的某些自变量,可能与因变量毫无关联,而最小二乘法得到的无关因素的参数系数未必刚好是 0,所以若加入这些无关因素,可能会影响模型解释度。
最优子集法(best subset selection)
算法:
- 记 M 0 M_0 M0 为空模型(null model)(无自变量)。该模型预测的结果均为样本均值。
- For k = 1 , 2 , ⋯ , p k=1,2,\cdots,p k=1,2,⋯,p:
拟合所有 C p k C_p^k Cpk 个包含 k k k 个自变量的模型;
从这 C p k C_p^k Cpk 个模型选取最优的模型,记为 M k M_k Mk 。这里的最优,在线性回归问题中,可以是最小 R S S RSS RSS 或者最大 R 2 R^2 R2。 - 从 M 0 , M 1 , ⋯ , M p M_0,M_1,\cdots,M_p M0,M1,⋯,Mp 中选取最优模型。选取标准可以是交叉验证的预测误差,或者 C p ( A I C ) , B I C , C_p(AIC), BIC, Cp(AIC),BIC,调整后的 R 2 R^2 R2。
优点: 简单
缺点: 受计算限制, p p p 较大时运算量太大。
逐步选择法(stepwise selection)
优点: 运算量较小
缺点: 未必能选取最佳模型
向前逐步选择
算法:
- 记 M 0 M_0 M0 为无自变量的空模型(null model)
- For k