机器学习-提升方法（集成学习）

Garker-gan

已于 2022-07-13 22:29:20 修改

阅读量275

点赞数

分类专栏：机器学习文章标签：机器学习集成学习人工智能

于 2022-07-11 22:56:49 首次发布

本文链接：https://blog.csdn.net/weixin_37443412/article/details/125732428

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

集成学习

提升方法通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

1 Adaboost算法

输入：训练数据集 $T$
输出：最终分类器 $G (x)$
(1)初始化训练数据的权值分布
$D_1(w_{11},w_{12},...,w_{1N}),w1i=\frac{1}{N}$
(2)对 $m = 1, 2, . . ., M$
(a)使用具有权值分布的 $D_m$ 训练数据集学习，得到基本分类器
$G_m(x):X \rightarrow\left\{-1,+1\right\}$
&ensp(b)计算在 $G_m(x)$ 训练数据集上的分类误差率
$e_m=\sum_{i=1}^N P(G_m(x) \neq y_i)=\sum_{i=1}^N w_{mi}I(G_m(x) \neq y_i)$
©计算 $G_m(x)$ 的系数
$\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
(d)更新训练数据集的权值分布
$D_{m+1}=(w_{m+1,1},...,w_{m+1,N})$
$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x)),Z_m为规范因子$
$Z_m={\sum_{i=1}^N}w_{mi}exp(-\alpha_my_iG_m(x_i))$
(3)构建基本分类器的线性组合
$f(x)=\sum_{m=1}^M \alpha_mG_m(x)$
$G(x)=sign(f(x))=sign(\sum_{i=1}^M \alpha_mG_m(x))$

1.2 Adaoost算法的训练误差分析

Adaboost算法的误差界
$\frac1N \sum_{i=1}^N I(G_m(x) \neq y_i) \leq \frac 1N \sum_i exp(-y_if(x_i))=Z_m$
二类分类问题Adaboost的训练误差界
$\prod_{m=1}^M Z_m=\prod_{m=1}^N[2\sqrt{e_m(1-e_m)}] \\=\prod_{m=1}^M \sqrt{1=4\gamma_m^2} \leq exp(-1\sum_{m=1}^M\gamma_m^2) \\\gamma_m=\frac12 -e_m$
推论
$\frac1N\sum_{i=1}^NI(G_m(x) \neq y_i) \leq exp(-2M\gamma^2)$

1.3 Adaboost与前向分布算法

Adaboost算法的另一种解释，可以认为是一个加法模型，损失函数为指数函数，学习算法为二类分类学习算法。
前向分布算法
输入：训练集 $T$ ，损失函数 $L$ ，基函数集 $\left\{b(x;\gamma)\right\}$
输出：加法模型 $f (x)$
(1)初始化 $f_0(x)=0$ ;
(2)对m=1,2,3,…,M
(a)极小化损失函数
$(\beta_m,\gamma_m)=argmin_{\beta,\gamma}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta(x_i,\gamma))$
得到参数 $\beta_m,\gamma_m$ 。
(b)更新
$f_m(x)=f_{m-1}(x)+\beta_m b(x;\gamma_m)$
(3)得到加法模型
$f(x)=f_M(x)=\sum_{m=1}^M \beta_mb(x;\gamma_m)$

2 提升树

2.1 提升树算法

提升树是以分类树或回归树为基本分类器的提升方法。提升树模型可以表示为决策树的加法模型：
$f_M(x)=\sum_{m-1}^MT(x;\Theta_m)$
其中， $T(x;\Theta_m)$ 为决策树， $\Theta_m$ 为决策树的参数， $M$ 为树的个数。
提升树算法采用前向分布算法。
$f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
通过经验风险最小化确定下一棵树的参数 $\Theta_m$ :
$\hat{\Theta_m}=argmin_{\Theta_m}\sum_{i=1}^N L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))$
树可以表示为
$T(x;\Theta_m)=\sum_{j=1}^J c_jI(x\in R_j)$
当损失函数为平方误差时：
$L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))=[y-f_{m-1}(x)-T(x;\Theta_m)]^2 \\=[r-T(x;\Theta_m)]^2$
$r=y-f_{m-1}(x)$
回归问题的提升树算法
（a）计算参数： $r_{mi}=y_i-f_{m-1}(x_i)$
（b）拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;\Theta_m)$
（c）更新 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
最后可以得到 $f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

2.2 梯度提升

当损失函数是平凡损失函数和指数函数时，每一步优化很简单。但是对一般损失函数而言，每一步优化都不容易。梯度提升利用最速下降法的近似方法。
梯度提升算法
（1）初始化 $f_0(x)=argmin_c \sum_{i=1}^N L(y_i,c)$
（2）对 $m = 1, 2, . . ., M$
（a）对 $i = 1, 2, . . ., N$
$r_{mi}=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
（b）对 $r_{mi}$ 拟合一个回归树，得到第 $m$ 棵树的叶结点区域 $R_{mj}$
（c）对 $j = 1, 2, . . ., J$
$c_{mj}=argmin_{c} \sum_{x_i \in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
（d）更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^J c_{mj}I(x \in R_{mj})$
（3）得到回归树
$\hat{f}(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj} I(x \in R_{mj})$
负梯度作为残差的估计；平方损失函数，就是参残差；一般损失函数，就是残差的近似值。