【机器学习算法推导】AdaBoost与GBDT（Gradient Boosting Decision Tree）

最新推荐文章于 2024-03-10 22:27:19 发布

Mankind_萌凯

最新推荐文章于 2024-03-10 22:27:19 发布

阅读量521

点赞数

分类专栏：机器学习之旅文章标签： GBDT

本文链接：https://blog.csdn.net/Hemk340200600/article/details/85918984

版权

机器学习之旅专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

1.Gradient Boosted Decision Tree(GBDT)
3.Random Forest
4.AdaBoost-DTree

1.Gradient Boosted Decision Tree(GBDT)

AdaBoost中的模型是二分类模型；扩展到任意的error function后，可以得到
$\min_\eta \min_h \frac{1}{N}\sum_{n=1}^Nerr\left(\sum_{\tau=1}^{t-1}a_\tau h_\tau(x_n)+\eta h_t(x_n),y_n\right)..........(1)$
可以配合任意的预测函数（通常是实数型输出）。其中式子(1)是新的融合模型——GradientBoost的形式，也是一种框架。它可以配合很多的算法，解决regression，或者soft classification等问题。
如果让GradientBoost应用到回归问题，使用平方误差函数，则会有
$\begin{cases} \min\limits_\eta \min\limits_h \frac{1}{N}\sum\limits_{n=1}^Nerr\left(\sum\limits_{\tau=1}^{t-1}a_\tau h_\tau(x_n)+\eta h_t(x_n),y_n\right) \\ err(s,y)=(s-y)^2 \end{cases}..........(2)$
其损失变为
$\begin{aligned} &L(y,\left(\sum\limits_{\tau=1}^{t-1}a_\tau h_\tau(x_n)+\eta h_t(x_n),y_n\right)) \\ &= [y-f_{m-1}(x)-\eta h_t(x_n)]^2 \\ &=[r-\eta h_t(x_n)]^2 \end{aligned}$
r=y- $f_{m-1}(x)$ 是当前数据拟合的残差，所以对于回归问题的提升树算法中，只需要简单地拟合当前模型的残差即可。
其中
$\begin{aligned} (2) &\approx^{taylor} \min_h \frac{1}{N}\sum_{n=1}^Nerr(S_n,y_n)+\frac{1}{N}\sum_{n=1}^N\eta h(x_n)\left .\frac{\partial err}{\partial s}\right|_{S=S_n} \\ &=\min_h\quad constants +\frac{\eta}{N}\sum_{n=1}^Nh(x_n)·2(S_n-y_n) \end{aligned}$
关于h的大小其实无所谓，因为它只是个方向， $\eta$ 会在下一步优化它。为了限制h的大小，将h作为一个惩罚项放到式子中。
$\begin{aligned} &\min_h\quad constants +\frac{\eta}{N}\sum_{n=1}^N(h(x_n)·2(S_n-y_n)+h(x_n)^2)\\ &= \quad constants +\frac{\eta}{N}\sum_{n=1}^N(constant + (h(x_n)-(y_n-s_n))^2) \end{aligned}$
$y_n-s_n$ 是想要的y和目前已经得到的分数的差，称之为残差，因此我们的优化目标转换为求 $x_n$ 和 $y_n-s_n$ 的回归问题。
经过上面的步骤，我们求得了最优的h，接下来要求解 $\eta$ 。对于 $\eta$ 的求解，我们需要做一步转换：
$\min_\eta \frac{1}{N}\sum_{n=1}^N(s_n+\eta h_t(x_n)-y_n)^2=\frac{1}{N}\sum_{n=1}^N((y_n-s_n)-\eta h_t(x_n))^2$
经过转变后，求解 $\eta$ 问题变为以 $h_t$ 为权重， $\eta$ 为变量，输出为残差的线性回归问题，因此只要解决线性回归问题就可以得到 $\eta$

GBDT算法流程总结如下：

初始化 $f_0(x)=0$
对于m=1,2,…,M，计算残差 $r_{m,i}=y_i-f_{m-1}(x_i),i=1,2,...,N$ ，拟合残差 $r_{m.i}$ 学习一个回归树，得到 $T(x;\theta_m)$ ，更新 $f_m(x)=f_{m-1}(x)+T(x;\theta_m)$
得到回归问题提升树 $f_M(x)=\sum_{i=1}^MT(x;\theta_m)$
决策树除了与Gradient Boost组成形成GBDT算法之外，还有两种典型的算法，比如Random Forest 和 AdaBoost-DTree。

3.Random Forest

组成：Bagging+Decision Tree
使用bootstraping取样得到T份不同的样本，得到T棵决策树，将这些决策树融合起来，就可以得到随机森林。

4.AdaBoost-DTree

一棵树，如果无限制的划分下去，能够得到一颗完全长成的树，任何训练样本都能够很好地划分，也就是说我们的训练误差 $\epsilon=0$ 。
对于AdaBoost来说， $\epsilon=0$ 意味着缩放因子 $t=\ln \sqrt{\frac{1-\epsilon}{\epsilon}}$ 无限大。因此，我们需要对树做一些限制，比如不使用所有的训练样本，或者是限制树的高度。我们称它为pruned tree。
同时，使用AdaBoost还有一个问题，就是AdaBoost中的样本是有权重的，也就是说我们得实现一颗带权重的决策树。有没有办法避免这种情况呢？答案是有的。对于一个权重为x的样本，我们只要从样本集合中取出x份该样本进行训练即可。这样在决策树的训练过程中，就隐含了样本的权重。
当树的高度只剩下两层时，这种情况下的树被称为AdaBoost-Stump。

Mankind_萌凯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习算法推导】AdaBoost与GBDT（Gradient Boosting Decision Tree）

随机森林RandomForest使用bootstraping取样得到T份不同的样本，得到T棵决策树，将这些决策树融合起来，就可以得到随机森林。AdaBoost-DTree 一棵树，如果无限制的划分下去，能够得到一颗完全长成的树，任何训练样本都能够很好地划分，也就是说我们的训练误差ϵ=0\epsilon=0ϵ=0。对于AdaBoost来说，ϵ=0\epsilon=0ϵ=0意味着缩放因子...
复制链接

扫一扫

专栏目录