第2章-回归模型(3)-模型筛选_k折交叉验证法多元逐步回归-CSDN博客

本文链接：https://blog.csdn.net/tongweiganglp/article/details/86286986

本文探讨了回归模型中特征变量的筛选方法，包括逐步回归、全子集回归及各种模型评估指标，如R2、调整的R2、Mallows' Cp统计量、信息量准则、预测平方和与预测拟合优度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

根据前两节的内容，我们的模型就建立完成了嘛？答案是 NO。

如果我们有10个候选变量，每个候选变量在回归模型中都有选中和非选中两种状态，那么模型的组合形式有 $2^{10}=1024$ 种。假设用了显著性的检验，以及诊断检验方法后，还有24种模型，那我们要如何选择呢？

回归模型对于特征变量的选取有下面四种形式：

变量与实际情况基本吻合
缺失了几个相关的重要变量(不用关心缺失不重要变量的情况)
多了几个无关变量
多了几个相关的冗余变量

我们如何选取一个模型避免上述后三种情况呢？

本章主要介绍经典统计学上的特征变量筛选的方法，与第四章的“一，经典统计方法”一致。所以第四章中，也没有重复表述。

正文

一，逐步回归法
逐步回归有向前回归（逐个加入变量），与向后回归（逐个剔除变量）两种策略。
这种逐步的循环会比较上一次的结果，用若干个衡量模型好坏的指标，直到指标不再有大幅度改善变好为止，停止策略。

以向前回归为例，有我们有四个变量，数据如文件内容
1，分别对四个变量进行回归

在这里插入图片描述

根据t分布的特点，我们得到 $x_4$ 的P值更小，所以我们第一项先选 $x_4$ .

2，定了一个变量后，再依次添加其余变量
在这里插入图片描述

根据t分布的特点，我们得到 $x_1$ 的P值更小，所以我们第二项先选 $x_1$ .

3，定了两个变量后，再依次添加其余变量
在这里插入图片描述

根据t分布的特点，我们得到 $x_2$ 的P值更小，所以我们第二项先选 $x_2$ .
但是我们却看到，最开始入选的 $x_4$ 反而变的不显著了。

4，我们再去掉 $x_4$ 看看
在这里插入图片描述

$x_1,x_2$ 之间的显著性比以前更低，所以我们重新确定选取的两个变量为 $x_1,x_2$ 再依次添加其他变量。

5，选定 $x_1,x_2$
在这里插入图片描述

$x_3 ,x_4$ 都不显著了，所以最终我们的回归模型选择的变量是 $x_1,x_2$

注意：我们不能因此过分注重逐步回归的结果，因为依然可能存在下面的问题：

可能依旧存在简介中描述的四种形式的问题
逐步回归的结果可能最后有若干个相似模型

二，全子集回归，又叫最优子集回归

步骤：
step1，构建全部可能的回归模型
step2，从中挑选出最好的模型

注意：该方法不适合太复杂，候选变量太多的情况，如开篇所说，10个候选变量就能组合出1024种回归模型，随着候选变量的增多，回归模型的数量会指数增加。

三，如何定义”最好“

除了，显著性检验以外，用什么指标来衡量模型所选取的候选变量是最好的结果呢？
下面我们来介绍几种度量指标。

1， $R^2$

由前两节我们讲到，对于多元线性线性回归模型， $R^2$ 会随着变量的增加而增加。所以单独看拟合优度的量级是没有意义的。此处我们比较的是 $R^2$ 增长的幅度。

如下图所示
在这里插入图片描述

单变量的模型 $R^2$ 在60多的量级，当变成两变量模型时，增长到了97的量级，而更多变量所带来的增加幅度都在个位数。所以，从拟合优度增幅的角度来看，两变量模型”最优“，而两变量回归模型中，又属 $x_1,x_2$ 的组合结果最好。

2，调整的 $R^2$

$R_{a}^{2}=1-\left(\frac{n-1}{n-p}\right)\left(\frac{SSE}{SST}\right)=1-\left(\frac{n-1}{SST}\right)MSE=\frac{\frac{SST}{n-1}-\frac{SSE}{n-p}}{\frac{SST}{n-1}}$

调整的拟合优度，对于SSE以及SST都分别除以各自的自由度，其中p表示变量的个数。调整后的值对于增加变量的个数起到了约束性，并且也是关于均方误差MSE的一个公式。

$MSE=\frac{SSE}{n-p}=\frac{\sum(y_i-\hat{y}_i)^2}{n-p}$

因此得到最大的 $R^2$ 与最小的MSE是等价的。

所以，在上例中，仅根据调整后的 $R^2$ 来判断， $R^2=97.6$ 最大， $M S E = 2.3087$ 最小，所以 $x_1,x_2,x_4$ 组合最优。

3， $Mallows'C_p$ 统计量

$Mallows'C_p$ 统计量运用的思想是Bias-variance tradeoff原则。

原则思想如下：
在这里插入图片描述

从上图中的公式与说明中，我们知道均方误差可以分解成：
Error = Bias + Variance + Noise
Error反映的是整个模型的准确度，被拆解为两个重要部分(噪声先不考虑)。Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是如果可以重复建模的过程，生成多个模型，则模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性或泛化能力。在一个实际系统中，Bias与Variance往往是不能兼得的。如果要降低模型的Bias，就一定程度上会提高模型的Variance，反之亦然。

在这里插入图片描述

在统计学习中：一般采用抽样，逐步回归、假设检验、以及类似于AIC的统计指标等方法来平衡bias+variance。

在机器学习中：一般用到k折交叉验证(K-fold Cross Validation)，以及正则化项(Regularization)一起来平衡bias+variance。当然还有bagging以及boosting的方法，bagging主要是减小了variance，boosting主要是减小bias。

总的来说，统计学习更注重中间过程，对模型生成的机理有很好的假设，也有比较完整的假设检验、模型筛选的方法。而机器学习更注重结果，模型的好坏也基本由最终预测结果来衡量，所以对模型原假设以及假设检验的方法并不是那么关心。因为机器学习的模型筛选方法都融合到了参数求解算法中了，即结构风险最小化—损失函数+正则化。

我们返回来，说 $Mallows'C_p$ 统计量
定义 $\Gamma_p$ 如下，统计量表示了方差variance与偏差bias的组合