GBDT(Gradient Boosting Decision Tree)算法介绍

故园稻香

已于 2022-06-28 17:30:31 修改

阅读量430

点赞数

文章标签：算法 boosting 决策树 decision tree 机器学习

于 2022-06-28 17:05:56 首次发布

本文链接：https://blog.csdn.net/sjtulgl/article/details/125498766

版权

文章目录

GBDT回归算法的基本思路
为什么是梯度下降
三种损失函数
GBDT回归算法的一般步骤
GBDT二分类算法
- 损失函数推导
- GBDT二分类算法步骤

GBDT回归算法的基本思路

1、给定数据集 $D=\lbrace(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\rbrace$ ，任务是拟合一个模型 $F (x)$ 来最小化平方误差 $\frac{1}{2}(y_i-F(x_i))^2$ ；
2、当前的 $F (x)$ 还不够好，采用加法模型的策略，叠加上一个新的弱学习器 $h (x)$ （树回归模型），新模型的拟合结果变为 $F (x) + h (x)$ ；
3、我们期望的是 $F(x_i)+h(x_i)=y_i$ ，等价于 $h(x_i)=y_i-F(x)$ ；当前问题等价于在新的数据集 $D=\lbrace(x_1,y_1-F(x_1)),(x_2,y_2-F(x_2)),...,(x_n,y_n-F(x_n))\rbrace$ 上拟合一个新模型 $h (x)$ ；
4、 $y_i-F(x_i)$ 就是当前模型的残差，即当前问题等价于用残差作为新的y来拟合一个新的回归树模型 $h (x)$ .

为什么是梯度下降

加法模型的表达式：

$F_m(x_i)=F_{m-1}(x_i)+h(x_i)$

平方误差损失函数：

$J=\frac{1}{2}\sum_{i=1}^n(y_i-F(x_i))^2$

梯度为：

$\frac{\partial J}{\partial F(x_i)}=-(y_i-F(x_i))$

GB回归树模型的表达式变为：

$F_m(x_i)=F_{m-1}(x_i)-\frac{\partial J}{\partial F(x_i)}$

一般表达式为：

$F_m(x_i)=F_{m-1}(x_i)-\rho\frac{\partial J}{\partial F(x_i)}$

一般情况下，使用损失函数负梯度作为新加模型的拟合目标。

三种损失函数

1、平方误差损失函数在数学上可以很好地求导处理，但是，平方误差会把误差平方放大，导致一些异常点在新的训练中会被重点关注，可能影响最终模型的性能；下面介绍两个处理异常点时更加鲁棒的损失函数；
2、绝对误差损失函数：

$L(y_i,F(x_i))=|y_i-F(x_i)|$

负梯度为：

$g(x_i)=sign(y_i-F(x_i))$

3、Huber损失函数：

$L(y_i,F(x_i))= \begin{cases} \frac{1}{2}(y_i-F(x_i))^2,|y_i-F(x_i)|\leq\delta \\ \\ \delta(|y_i-F(x_i)|-\frac{\delta}{2}),|y_i-F(x_i)|>\delta\\ \end{cases}$

负梯度为：

$-g(x_i)= \begin{cases} y_i-F(x_i),|y_i-F(x_i)|\leq\delta \\ \\ \delta sign(y_i-F(x_i)),|y_i-F(x_i)|>\delta\\ \end{cases}$

GBDT回归算法的一般步骤

Step1: 初始化一个弱学习器 $F_0=\underbrace{argmin}_F \sum_{i=1}^nL(y_i,F)$ ，得到各个样本的初始预测值；
Step2：开始迭代计算，from 1 to M do:

在第m步中，使用m-1步的预测值，计算每个样本损失函数负梯度值,
$-g_m(x_i)=-\frac{\partial L}{\partial F}|_{(m-1)}$
训练一棵新的回归树 $h_m$ 来拟合 $g_m(x_i)$
计算 $h_m$ 的每个叶子节点的最佳拟合值，
$c_{mj}=\underbrace{argmin}_c\sum _{i=1}^nL(y_i,F_{m-1}+c)$
直至满足迭代停止条件，则停止迭代

Step3：最终学习器为M棵树以及每棵树叶子节点的预测值，实施预测时，只需要判断样本在每一棵树里落在哪个叶子节点里，然后将对应每棵树的叶子节点预测值加和，即为最终预测值。

GBDT二分类算法

损失函数推导

设0/1二分类问题中，预测样本为1类的概率为 $\hat{y_i}=\frac{1}{1+exp(-F(x_i))}$
$\begin{cases}P(y=1|x)=\hat{y_i}\\ \\P(y=0|x)=1-\hat{y_i}\end{cases}$
$P(y|x_i)=\hat{y_i}^{y}(1-\hat{y_i})^{1-y}$
似然函数 $l=\prod_{i=1}^nP(Y=y_i|x_i)=\prod_{i=1}^n\hat{y_i}^{y_i}(1-\hat{y_i})^{1-y_i}$
对数似然函数 $L=\ln l=\sum_{i=1}^n[y_i\ln \hat{y_i}+(1-y_i)\ln(1-\hat{y_i})]$
设损失函数为 $J=-\frac{1}{n}L$ ，即可使用梯度下降法求似然函数最大值。

GBDT二分类算法步骤

GBDT的二分类任务实际上就是求F(x)，使J最小
损失函数 $J=-\frac{1}{n}\sum_{i=1}^n[y_i\ln \hat{y_i}+(1-y_i)\ln(1-\hat{y_i})]$
假设迭代了m-1步以后，当前学习器为 $F_{m-1}=\sum_{i=1}^{m-1} h_i(x)$
将 $\hat{y_i}=\frac{1}{1+e^{-F}}$ 带入损失函数得
$\begin{aligned} J_i&=-y_i\ln\frac{1}{1+exp(-F)}-(1-y_i)\ln\frac{exp(-F)}{1+exp(-F)} \\ &= y_i\ln(1+exp(-F))+(1-y_i)[F+\ln(1+exp(-F))]\\ &=\ln(1+e^{-F})+(1-y_i)F \end{aligned}$
当前负梯度（伪残差） $r_{mi}=-\frac{\partial J_i}{\partial F}|_{m-1}=y_i-\frac{1}{1+e^{-F}}=y_i-\hat{y_i}$
训练第m棵回归树 $h_m$ 来拟合 $r_{mi}$
给第m棵树的第j个叶子节点确定最佳残差拟合值
$c_{mj}=\underbrace{argmin}_c \sum_i J(y_i, F_{m-1}(x_i)+c)$
求解过程，损失函数的二阶泰勒展开式为：
$\begin{aligned} J(y_i,F_{m-1}+c)&=J(y_i,F_{m-1})+\frac{\partial J}{\partial F}c+\frac{1}{2}\frac{\partial^2J}{\partial F^2}c^2 \\ &=constant+[\frac{1}{1+e^{-F}}-y_i]c+\frac{1}{2}\frac{e^{-F}}{(1+e^{-F})^2}c^2 \end{aligned}$
上式取得极值时，c的取值为
$c^*=-\frac{b}{2a}=\frac{y_i(1+e^{-F})^2-(1+e^{-F})}{e^{-F}}=\frac{y_i-\hat{y_i}}{\hat{y_i}(1-\hat{y_i})}=\frac{r_{mi}}{(y_i-r_{mi})(1-y_i+r_{mi})}$
对于第m棵树的第j个叶子节点
$c_{mj}=\frac{\sum_{x_i\in R_{mj}}r_{mi}}{\sum_{x_i\in R_{mj}}(y_i-r_{mi})(1-y_i+r_{mi})}$
最终强学习器为
$F_M(x_i)=F_0(x_i)+\sum_{m=1}^M\sum_{j=1}^{J_m}c_{mj}I(x_i\in R_{mj})$
一般初始学习器 $F_0(x_i)=\ln\frac{P(Y=1|x)}{1-P(Y=1|x)}$