从adaboost到GBDT

最新推荐文章于 2019-08-13 15:11:45 发布

lo扬州炒饭ol

最新推荐文章于 2019-08-13 15:11:45 发布

阅读量141

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/tissue16/article/details/85318344

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

AdaBoost

引言：
先从简单的说起吧，我们来看一下指数函数的曲线。
指数函数是 $y = a^x$ 的形式，它的曲线为：
在这里插入图片描述
当a = e时，很自然就如左图所示。
此时， $y=e^x$
当x<0时，y＜1。当x≥0时，y≥1。

从前向分布算法说起

前向分布算法说，不管你的基函数是什么，损失函数是什么，只要你的模型是加法模型，就可以按照我这个框架去进行求解。
加法模型拥有m个基函数和对应的m个系数，它可以从前往后，一个一个地去求解。即
$=\sum_{m=1}^{M}{β_mb(x;γ_m)}$
其中， $b(x;γ_m)$ 为基函数， $γ_m$ 是基函数的参数， $β_m$ 是基函数的系数。
那么它的经验损失就是：
$\min\limits_{β_m,γ_m}\sum_{i=1}^{N}{L(y_i,\sum_{m=1}^{M}{β_mb(x;γ_m)})}$
那么，我们每步只需要学习其中一个基函数及它的系数，就是说我们每步只需要优化其中一个基函数对应的损失函数：
$\min\limits_{β,γ}\sum_{i=1}^{N}{L(y_i,βb(x;γ))}$
每一步极小化损失函数来得到参数 $β_m, γ_m$ ，这样子，我们就可以求得整一个模型的总损失。
算法描述的话，是这样子的：
1.初始化 $f_0(x)=0$
2.对 $m = 1, 2, . . ., M$
极小化损失函数：
$(β_m, γ_m)=\arg\min\limits_{β,γ}\sum_{i=1}^{N}{L(y_i, f_{m-1}(x_i)+βb(x;γ))}$
得到参数 $β_m, γ_m$
更新：
$f_m(x)=f_{m-1}(x)+β_mb(x;γ_m)$
3.得到加法模型
$f(x)=f_M(x)=\sum_{m=1}^{M}β_mb(x;γ_m)$

以AdaBoost为例：
$f(x)=\sum_{m=1}^{M}{α_mG_m(x)}$
分类器为基本分类器 $G_m(x)$ ，系数是 $α_m$ 。当损失函数是指数损失函数时：
$L (y, f (x)) = e x p [- y f (x)]$
当经过m-1轮迭代得到 $f_(m-1)(x)$ ，第m轮迭代得到
$f_m(x)=f_{m-1}(x)+α_mG_m(x)$
目标是选择 $α_m, G_m)$ 使损失函数最小
$(α_m, G_m)=\arg\min\limits_{α,G}\sum_{i=1}^{N}{exp[-y_i(f_{m-1}(x_i)+αG(x_i)]}$
它可以表示为：
$(α_m, G_m)=\arg\min\limits_{α,G}\sum_{i=1}^{N}{\overline{w}_{mi}exp[-y_iαG(x_i)]}$

其中 $\overline{w}_{mi}=exp[-y_if_{m-1}(x_i)]$ ，不依赖于α和G，所以与最小化无关，
我们要求 $α_m, G_m)$ ，只要使 $exp[-y_iαG(x_i)]$ 最小化即可。
而
$G_m(x)=\arg\min\limits_{G}\sum_{i=1}^{N}\overline{w}_{mi}I(y_i≠G(x_i))$
之后，我们求 $α_m$
$\sum_{i=1}^{N}{\overline{w}_{mi}exp[-y_iαG(x_i)]}$
$=\sum_{y_i=G_m(x_i)}{\overline{w}_{mi}e^{-α}}+\sum_{y_i≠G_m(x_i)}{\overline{w}_{mi}e^{α}}$
$=(e^α-e^{-α})\sum_{i=1}^{N}\overline{w}_{mi}I(y_i≠G(x_i))+e^{-α}\sum_{i=1}^{N}\overline{w}_{mi}$
$=(e^α-e^{-α})G_m(x)+e^{-α}\sum_{i=1}^{N}\overline{w}_{mi}$
此时对 $α_m$ 求导使导数等于0得到：
$α_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
$e_m=\sum_{i=1}^{N}\overline{w}_{mi}I(y_i≠G(x_i))$
只要求得 $G_m$ $α_m$ 就可以得到每一轮的基函数了，然后得到每一轮权值的更新。

提升树

当基函数是树模型的时候，我们可以简单的归纳如下：
树模型表示为：
$T(x,Θ)=\sum_{j=1}^{J}{c_jI(x∈R_j)}$
其中， $c_j$ 是某个叶子节点的输出值（常量）， $R_j$ 表示的是第j个叶子节点。
回归问题提升树使用前向分步算法：
$\begin{aligned} f_0(x)&=0\\ f_m(x)&=f_{m-1}(x)+T(x;Θ_m), m=1,2,...,M\\ f_M(x)&=\sum_{m=1}^{M}T(x;Θ_m) \end{aligned}$
第m步的最小损失为：
$\hat{Θ}_m=\arg\min\limits_{Θ_m}\sum_{i=1}^{N}L(y_i,f_{m-1}(x_i)+T(x_i;Θ_m))$
得到 $\hat{Θ}_m$ ，即第m棵树的参数。
采取平方损失时,
$L(y, f(x))=(y-f(x))^2$
其损失变为
$\begin{aligned} &L(y,f_{m-1}(x)+T(x;Θ_m))\\ &=[y-f_{m-1}(x)-T(x;Θ_m)]^2 &=[r-T(x;Θ_m)]^2 \end{aligned}$
这里
$r=y-f_{m-1}(x)$
是当前模型拟合数据的残差（residual），所以，对回归问题的提升树算法来说，只需简单地拟合当前模型的残差。
学习到第m棵树的残差为 $r_m$ 之后，更新：
$f_m(x)=f_{m-1}(x)+T(x;Θ_m)$
即得到回归问题提升树
$f_M(x)=\sum_{m=1}^{M}T(x;Θ_m)$

梯度提升登场

那么，如果损失函数不是指数损失和平方损失呢，如果损失函数是一般函数的时候，问题就没这么简单了。怎么办！这时候，梯度提升登场。
它的关键是利用损失函数的负梯度在当前模型的值
$-[\frac{∂L(y_i,f(x_i))}{∂f(x_i)}]_{f(x)=f_{m-1}(x)}$
算法：
输入：训练数据集T，损失函数 $L (y, f (x))$
输出：回归树 $\hat{f}(x)$
（1）初始化
$f_0(x)=\arg\min\limits_{c}\sum_{i=1}^{N}L(y_i,c)$
（2）对 $m = 1, 2, . . ., M$
（a）对 $i = 1, 2, . . ., N$ ，计算
$r_{mi}=-[\frac{∂L(y_i,f(x_i))}{∂f(x_i)}]_{f(x)=f_{m-1}(x)}$
（b）对 $r_mi$ 拟合一个回归树，得到第m棵树的叶节点区域R_mj, j=1,2,…,J
对J=1,2,…,J，计算
$c_{mj}=\arg\min\limits_{c}\sum_{x_i∈R_{mj}}{L(y_i, f_{m-1}(x_i)+c)}$
（d）更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^{J}{c_{mj}I(x∈R_{mj})}$
（3）得到回归树
$\hat{f}(x)=f_M(x)=\sum_{m=1}^{M}\sum_{j=1}^{J}c_{mj}I(x∈R_{mj})$
至于梯度提升的妙处，就留到讲xgboost的时候再做对比吧。

lo扬州炒饭ol

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从adaboost到GBDT

AdaBoost引言：先从简单的说起吧，我们来看一下指数函数的曲线。指数函数是y=axy = a^xy=ax的形式，它的曲线为：当a = e时，很自然就如左图所示。此时，y=exy=e^xy=ex当x&lt;0时，y＜1。当x≥0时，y≥1。从前向分布算法说起前向分布算法说，不管你的基函数是什么，损失函数是什么，只要你的模型是加法模型，就可以按照我这个框架去进行求解。加...
复制链接

扫一扫