（LXTML笔记）Gradient Boosted Decision Tree

最新推荐文章于 2022-11-21 12:02:07 发布

windede

最新推荐文章于 2022-11-21 12:02:07 发布

阅读量222

点赞数

分类专栏：算法学习 LXTML

本文链接：https://blog.csdn.net/qq_23997101/article/details/79526158

版权

算法学习同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

LXTML

13 篇文章 0 订阅

订阅专栏

AdaBoost-DTree

根据AdaBoost的思想，
这里写图片描述
我们希望在生成多个分类器 $g_t$ 的时候，增加一个类似于adaboost的权重 $u_t$ ，即 $g_t=A(D,u^{t})$ ，在最后组成最终分类器 $G$ 的时候，增加权重 $a_t=a_t(u^t)$ ，这是整体的思路。

那么现在的问题是如何嵌入一个 $u^t$ ，使得 $g_t=DTree(D,u^t)$ ，注意到之前的Random-Forest等算法中的 $g_t$ 仅仅是 $DTree(D)$ .

这里写图片描述

如上图所示，本来加入 $u^t$ 应该是在 $E_{in}$ 中进行的，但是这不一定能很好地解出，所以这里讲其看成一个black box。注意到 $u^t$ 在adaboost是怎么引进来的，他是由boost抽样引进的，所以，我们采用红框所示的抽样方法。即对每一组数据 $(x_n,y_n)$ 按 $u_n$ 的比例概率来抽取，这样的话可以近似地处理 $E_{in}$ 且不用改最优化的框架（仅仅是“改”了数据）。

这里写图片描述

权重 $a_t$ 仍采用和adaboost一样的操作。

adaboost-DT用于二分类问题

这里写图片描述

如上更新，注意到由于是二分类问题 $y_n$ 是±1，那么 $u^t$ 可以有很好地表达式，这个结果和我们要回传的 $G$ 长得十分类似。

这里写图片描述

如上图所示，用一种粗糙的解释，实际上上上图中橙色框的部分表示的是一种类似于SVM中的margin，我们希望margin越大越好，即如上图灰色框所示，我们最终希望 $u^{t+1}$ 越下越好，那么我们可以再弱一些，我们希望能deresases $\sum_{n=1}^N u_n^{(t)}$ .
这里写图片描述

这里写图片描述
采用的是GD，对exp在原点附近泰勒展开后得知我们需要使得 $\sum_{n=1}^Nu_n^{(t)}(-y_nh(x_n))$ 最小化，其中 $h(x_n)$ 是变量，进一步化简，

这里的推导说明，实际上最小化 $E_{ADA}$ 相当于最小化 $E_{in}^{u^{(t)}}$ ，所以推来推去，我们发现了最好的 $g_t$ 实际上就是可以通过adaboost来解决的，即 $g_{t+1}$ 由 $u^t$ 和 $g_t$ 来获得，忘记的同学可以回到adaboost去查看。

这里写图片描述

得到最优的 $g_t$ 之后，接下来，我们要处理最优的步长，由上面的推导，我们能得出最优的步长就是 $ln\sqrt{\frac{1-\epsilon_t}{\epsilon_t}}$ ！实在是震精！

Gradient Boosting for Regression

这里写图片描述
推广上面adaboost-DT的loss项，可以推广到一般形式，下面将考虑regression问题，即考虑squared-error。

这里写图片描述

按照上面的推导的话遇到了一个问题，如果要min只要直接取 $h(x_n)=+\infty$ 就好了，不过实际上 $h(x_n)$ 仅仅是代表一个方向而已（想一想GD），长度应该是由步长控制的，所以，我们尝试对 $h(x_n)$ 做点限制，增加一个 $(h(x_n)^2)$ 项
这里写图片描述

通过配方，我们发现了一个惊人的事实，如果假设 $h$ 是线性的话，那么直接对 $\{(x_n,y_n-s_n)\}$ 做LR即可以得到一个最优解！

这里写图片描述

得到最优 h <script type="math/tex" id="MathJax-Element-4724">h</script>之后，考虑步长，稍微做点代数边形，我们发现一个事实，最优的步长也是可以通过线性回归获得，而且是一元！

对算法重新总结一下即
这里写图片描述

windede

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（LXTML笔记）Gradient Boosted Decision Tree

AdaBoost-DTree根据AdaBoost的思想，我们希望在生成多个分类器gtgtg_t的时候，增加一个类似于adaboost的权重ututu_t，即gt=A(D,ut)gt=A(D,ut)g_t=A(D,u^{t})，在最后组成最终分类器GGG的时候，增加权重at=at(ut)at=at(ut)a_t=a_t(u^t)，这是整体的思路。那么现在的问题是如何嵌入一个ututu...
复制链接

扫一扫

专栏目录