人智导（九）：回归方法的精化_需求信息回归推断法-CSDN博客

本文链接：https://blog.csdn.net/swy_swy_swy/article/details/107147141

人智导（九）：回归方法的精化

特征（子集）选择：从p个观测变量中 $(X_1,X_2,\dots ,X_p)$ 选择出与 $Y$ 较相关的子集，通过这个子集实现回归模型
最佳子集选择算法：
- 对于 $k=1,2,\dots ,p$ ：
  - 构建出所有的 $C^k_p$ 个回归模型
  - 筛选出 $C^k_p$ 组合中均方误差RSS最小的模型 $M_k$
- 从得到的 $M_1,M_2,\dots ,M_p$ 模型中通过交叉验证再宣传预测均方误差最小的模型，所对应的即为最佳子集。
特点：简单而低效，需要从 $2^p$ 中搜索出一个最佳，不适合处理 $p$ 很大的情况
前向选择回归算法：
- 对于 $k=0,1,2,\dots ,p-1$ ：
  - 构建所有的p-k个回归模型，通过逐次累加一个相应变量的方式
  - 在这p-k个模型中筛选出均方误差RSS最小的模型 $M_{k+1}$
- 从得到的 $M_1,M_2,\dots ,M_p$ 模型中通过交叉验证再选出预测均方误差最小的模型，即为目标子集
特点：仅需从 $\frac{p(p+1)}{2}$ 个模型空间中搜索出目标子集，但不能保证得到的子集是最佳的（模型RSS最小）

示例：

回归公式： $\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p$ 估算系数 $\beta_0,\beta_1,\dots ,\beta_p$ 通过最小化RSS： $\Sigma^n_{i=1}(y_i -\beta_0-\Sigma^p_{j=1}\beta_jX_{ij})^2$
正则化方法：
- 使用所有的 $p$ 个观测变量，约束变量的系数 $\beta_0, \beta_1 ,\dots ,\beta_p$ 使RSS取值尽可能趋于零
- 回归系数的取值限定在一个小范围内，将有效降低模型的方差

岭回归方法：
在这里插入图片描述

类似于最小二乘法，但隙数的估算 $\hat{\beta}^R$ 通过最小化公式： $\Sigma^n_{i=1}(y_i-\beta_0-\Sigma^p_{j=1}\beta_jX_{ij})^2 ~+~\lambda\Sigma^p_{j=1}\beta^2_j = \\RSS~+~\lambda\Sigma^p_{j=1}\beta^2_j$
其中 $\lambda \ge 0$ 为调试参数（超参数）：
- 当 $\lambda = 0$ ，约束不起作用，如同标准的线性回归
- 当 $\lambda \to \infty$ ，约束影响越大，系数 $\hat{\beta}^R$ 尽可能小

岭回归系数的正则化（标准化）：

在这里插入图片描述

一般地，所有变量需被标准化： $\tilde{x}_{ij} = \frac{x_{ij}}{\sqrt{\frac{1}{n}\Sigma^n_{i=1}(x_{ij}-\bar{x}_j)^2}}$
岭回归方法：是一种平衡“方差-偏差”技术
- 交叉验证test MSE选择最优的 $\lambda$
- $\lambda$ 的增加，导致方差降低而偏差上升
- 如下图，绿线为方差，黑线为偏差，红线为岭回归的test MSE

Lasso回归算法：
在这里插入图片描述

类似于最小二乘法，但系数的估算 $\hat{\beta}^L$ 通过最小化公式： $\Sigma^n_{i=1}(y_i-\beta_0-\Sigma^p_{j=1}\beta_jx_{ij})^2~+~\lambda\Sigma^p_{j=1}|\beta_j|\\=RSS~+~\lambda\Sigma^p_{j=1}|\beta_j|$
其中 $\lambda \ge 0$ 为调试参数：
- 当 $\lambda = 0$ ，约束不起作用，如同标准的线性回归
- 当 $\lambda \to \infty$ ，约束影响越大，系数 $\hat{\beta}^L$ 将尽可能小