人智导（十）：回归方法的扩展

最新推荐文章于 2020-10-28 19:18:54 发布

swy_swy_swy

最新推荐文章于 2020-10-28 19:18:54 发布

阅读量215

点赞数

分类专栏：数学与逻辑文章标签：机器学习深度学习人工智能大数据

本文链接：https://blog.csdn.net/swy_swy_swy/article/details/107192778

版权

41 篇文章 39 订阅

订阅专栏

回归方法的扩展：描述观测变量和响应变量间关联的标准线性模型扩展为非线性
多项式回归 $\beta_0+\beta_1X+\beta_2X^2 +\beta_2 X^3 +\dots +\beta_nX^n$
示例：年龄与工资关系（n=4项） $\hat{f}(x_0) = \hat{\beta_0}+\hat{\beta_1}x_0 +\hat{\beta_2}x^2_0 +\hat{\beta_3}x^3_0 +\hat{\beta_4}x^4_0$

回归方法的扩展：将观测变量的连续值划分为若干区间（分箱操作）（类似于你清计算GPA）
实例：观测变量 $X$ 划分为k个区间， $c_1,c_2,\dots ,c_k$ 以此构建k+1个新的变量（条件成立则 $I$ 函数值为1，否则为0） $C_0(X) = I(X<c_1)\\C_1(X) = I(c_1\le X < c_2) \\C_2(X) = I(c_2\le X <c_3)\\ \dots \\C_{k-1}(X) = I(c_{k-1}\le X < c_k) \\C_k(X) = I(c_k \le X)$
回归模型： $\beta_0+\beta_1C_1(X)+\beta_2C_2(X)+\beta_3C_3(X)+\dots +\beta_kC_k(X)$
$\beta_0$ ： $Y$ 的平均值，仅当 $X<c_1$
对于 $X$ 的值满足于 $c_j\le X < c_{j+1}$ ，则预测 $Y$ 值为 $\beta_0 +\beta_j$
$\beta_j$ ：相对于 $X<c_1$ ， $Y$ 的平均增长仅当 $c_j\le X <c_{j+1}$

扩展为非线性，归结为基本函数的回归形式： $Y=\beta_0 +\beta_1b_1(X)+\beta_2b_2(X)+\beta_3b_3(X)+\dots +\beta_kb_k(X)$ 基本函数可以是 $b_j(X) = X^j$ （多项式表示）或 $b_j(X) = I(c_{k-1}\le X<c_k)$ 或其它函数形式

样条(splines)回归方法：

多项式回归与阶梯函数方法的结合
样条回归模型形式（例如3-项式）： $Y=\begin{cases}\beta_{01}+\beta_{11}X+\beta_{21}X^2+\beta_{31}X^3 &if~X<c\\ \beta_{02}+\beta_{12}X+\beta_{22}X^2+\beta_{32}X^3 &if~X>c \end{cases}$ 若观测变量 $X$ 划分为 $k$ 个区间 $c_1, c_2, \dots ,c_k$ 模型灵活性更高（模型对应有 $k + 1$ 个3-项式）
样条回归与多项式回归对比：不需要太大的n-项式，而是通过区间划分(n=2, 3)增强灵活性
样条回归模型（3-项式）与多项式回归模型（15-项式）对比：如下图

广义累加模型(GAMs)：拓展为多个预测模型的情况
GAMs回归模型：一种通用型的框架
- 扩展标准的线性模型：每一个预测变量可采用非线性函数描述
- 同时保持累加性
标准回归模型： $Y=\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p$
GAMs模型： $Y=\beta_0+f_1(X_1)+f_2(X_2)+\dots +f_p(X_p) = \beta_0 +\Sigma^p_{j=1}f_j(X_j)$ 非线性函数 $f_j(X_j)$ 替代线性的 $\beta_jX_j$ 来表示每一个观测变量 $X_j$ 与响应变量 $Y$ 的非线性关系
示例： $\beta_0+f_1(year)+f_2(age)$
特点：
- 通过非线性函数拟合每一个观测变量与响应变量的关系
- 非线性具有更准确的预测能力
- 模型仍旧是累加的，保持可解释性
- 没有体现观测变量间的交互关联，需要更灵活方法，如boosting等
- 线性与非参模型间的很有效的折中技术

观测变量 $X_1,X_2,\dots ,X_p$ 的值空间划分为 $J$ 个不交叠的区域 $R_1,R_2,\dots ,R_J$

如何发现合适的划分区域 $R_1,R_2,\dots ,R_J$ ，目标是最小化RSS： $\Sigma^J_{j=1}\Sigma_{i\in R_j}(y_i-\hat{y}_{R_j})^2$ $\hat{y}_{R_j}$ ： $R_j$ 区域内的训练数据Y的平均值
自顶向下、递归二分方法：
- 选择最佳的观测变量 $X_j$ 和最佳的分割点 $s$
- 产生两个二分的区域： $R_1(j,x)=\{X|X_j < S\}$ $R_2(j,s)=\{X|X_j\ge S\}$ 最小化: $\Sigma_{i:x_i\in R_1(j,s)}(y_j -\hat{y}_{R_1})^2 +\Sigma_{i:x_i\in R_2(j,s)}(y_i-\hat{y}_{R_2})^2$
对已有区域递归二分其值空间区域，生成二分树，由约束而终止。（如下图）
区域 $R_1,R_2,\dots ,R_J$ 创建（树生成）后，预测test数据的Y值，即基于同区域训练数据Y的平均值

区域 $R_1, R_2, \dots ,R_J$ 划分过多（树过于复杂），模型易过拟合（如下图）

在这里插入图片描述

裁剪生成树为T_0（子树形式），以少量偏差代价降低方差，提升解释性
通过调节超参数 $\alpha$ ，选择一系列子树T，最小化下面公式（类似于Lasso）以求得最好子树模型 $\Sigma^{|T|}_{m=1}\Sigma_{i:x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha |T|$

在这里插入图片描述
线性模型形式： $\beta_0 +\Sigma^p_{j=1}\beta_jX_j$
树模型形式： $\Sigma^J_{m=1}c_m\times I(X\in R_m)$
树模型特点：

关注