一、 前言
模型选择方法有三种,分别是:子集选择法(subset selection), 收缩法(Shrinkage)和降维法(Dimension Reduction)。
这篇文章主要介绍模型选择的子集选择法。
\
二、为什么要进行模型选择?
对于线性模型:
Y = β 0 + β 1 X 1 + . . . + β p X p + ϵ Y = \beta_{0} + \beta_{1}X_{1}+...+ \beta_{p}X_{p} +\epsilon Y=β0+β1X1+...+βpXp+ϵ
模型选择就是要:决定P的大小;确定哪些特征是重要的。
而进行模型选择,主要出于预测准确性(Prediction Accuracy)和模型解释度(Model Interpretability)两方面考虑。
- 模型准确性:当p > n时,最小二乘法失效,此时需要模型选择来控制方差,使模型成功拟合。
- 模型解释性:因为多元回归模型中的一些自变量可能与因变量无关,但最小二乘法得到的无关变量的系数可能不为0,此时需要通过模型选择移除某些无关特征。
\
三、模型选择标准
对于训练集来说,包含了所有变量的模型总是有着最小的RSS和最大的 R 2 R^2 R2,所以RSS和 R 2 R^2 R2不适合用来作为模型选择的标准。
通常情况下,我们希望选择拥有最小测试误差(Test error)的模型。那么我们该如何知道测试误差呢?
- 通过训练误差调整得到测试误差: Adjusted R 2 R^2 R2, Mallow’s Cp, AIC, BIC
- 直接预测测试误差: 校验集方法(Validation Set Approach), 交叉验证(Cross-validation)
1. 调整得到Test error
1.1 调整后的 R 2 R^2 R2 (Adjusted R 2 R^2 R2)
A