集成学习之GBDT

joejoeqian

已于 2023-04-06 21:18:09 修改

阅读量580

点赞数 1

分类专栏： # 集成学习文章标签：集成学习机器学习决策树

于 2023-04-05 18:10:43 首次发布

本文链接：https://blog.csdn.net/joejoeqian/article/details/129960333

版权

集成学习专栏收录该内容

3 篇文章 4 订阅

订阅专栏

GBDT

1.预备知识
2.提升树
3.一般决策问题梯度提升树GBDT
4.GBDT解决二分类问题

1.预备知识

集成学习之GBDT预备知识

2.提升树

被认为是统计学习中性能最好的方法之一

2.1 一般步骤

2.1.1 模型

使用的也是加法模型： $f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$ ，其中 $M$ 为树的个数， $T(x;\Theta_m)$ 表示决策树， $\Theta_m$ 为决策树的参数。

2.1.2 损失函数

回归问题：平方误差损失函数
分类问题：
- 二分类问题：指数损失函数
- 多分类问题：softmax
- 一般决策问题：自定义损失函数

2.1.3 优化方法

前向分步算法：

如书上：在这里插入图片描述
其中当前模型 $f_m(x)$ 已知。

2.2 二分类问题的提升树

2.2.1 基学习器

CART决策树

2.2.2 损失函数

使用指数损失函数： $f(x)=\sum_{m=1}^M\beta_mb(x;\gamma _m)\\f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

2.2.3 说明

提升树相当于Adaboost算法的特殊情况，

Adaboost的模型为： $\begin{aligned}f(x)&=\sum_{m=1}^M\alpha_m G_m(x)\\&=\alpha_1G_1(x)+\cdots+\alpha_mG_m(x)+\cdots+\alpha_MG_M(x)\end{aligned}$ ，其中 $\alpha_m$ 由 $G_m(x)$ 的"分类误差率"决定，训练样本 $G_m(x)$ ：提高前一轮“错误分类”的样本的权值，降低前一轮“正确分类”的样本的权值。

它只是将：

1.基分类器G(x)限制为二分类树；
2.基分类器权重 $\alpha_m$ 全部置为1。
如图：

2.2.4 原理

只要我们使用的是指数损失函数，就可以用指数损失函数来调整样本数据的权重，从而让每个基分类器学到不同的内容。

指数损失函数：
$L(y,f(x))=\exp[-yf(x)]$
，其中当 $f (x)$ 分类正确时，与 $y$ 同号， $L (y, f (x)) <= 1$ 。当 $f (x)$ 分类错误时，与 $y$ 异号， $L (y, f (x)) > 1$ 。

2.3 回归问题的提升树

2.3.1 基学习器

CART回归树
$T(x;\Theta)=\sum_{j=1}^Jc_jI(x\in R_j)$
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

2.3.2 损失函数

使用平方误差损失： $L(y,f(x))=(y-f(x))^2$
$\begin{aligned}L(y,f(x))&=(y-f(x))^2\\&=[y-f_{m-1}(x)-T(x;\Theta_m)]^2\\&=[r-T(x;\Theta_m)]^2\end{aligned}$
，其中 $r$ 是残差，目标就是拟合残差 $r$ 。

2.3.3 前向分步算法

$\begin{aligned}\hat\theta_m&=\arg\min_{\theta m}\sum_{i=1}^NL(y^{(i)},f_{m-1}(x^{(i)})+T(x^{(i)},\theta_m))\\&=\arg\min_{\theta m}\sum_{i=1}^N(r_m^{(i)}-T(x^{(i)},\theta_m))^2\end{aligned}$

2.3.4 思路

1.个体学习器如何训练得到
如何改变训练数据的权值或概率分布如何改变？

用残差进行拟合，一步一步的将残差缩小。

2.如何将个体学习器组合
相加

3.目标

使得总体损失逐步减少

3.一般决策问题梯度提升树GBDT

GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

从上面的例子看这个思想还是蛮简单的，但是有个问题是这个损失的拟合不好度量，损失函数各种各样，怎么找到一种通用的拟合方法呢？

3.1 要解决的问题

在这里插入图片描述

3.2 基学习器

回归树：

$T(x;\Theta)=\sum_{j=1}^Jc_jI(x\in R_j)$
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

3.3 损失函数

找到一般的损失函数： $L (y, f (x))$

3.4 前向分步算法+梯度提升

3.4.1 核心目标

1.已知加法模型，一定会存在多个优化器，不断迭代优化；
2.我们要确保，每增加一个基学习器，都要使得总体损失越来越小，即第m步要比第m-1步的损失要小。
即： $\begin{aligned}&L(y^{(i)},f_m(x^{(i)}))<L(y^{(i)},f_{m-1}(x^{(i)}))\rightarrow L(y^{(i)},f_{m-1}(x^{(i)}))-L(y^{(i)},f_m(x^{(i)}))>0\end{aligned}$

3.4.2 将损失函数进行处理

处理的原因就是：往我们的核心目标上靠。

$\begin{aligned}&L(y^{(i)},f_m(x^{(i)}))<L(y^{(i)},f_{m-1}(x^{(i)}))\rightarrow L(y^{(i)},f_{m-1}(x^{(i)}))-L(y^{(i)},f_m(x^{(i)}))>0\end{aligned}$

由泰勒公式： $f(x)\approx f(x_0)+f^{'}(x_0)(x-x_0)$ 和 $L(y,f_m(x))$ 中只有 $f_m(x)$ 是未知量，且 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$ ，得：

$\begin{aligned}L(y,f_m(x))&\approx L(y,f_{m-1}(x))+\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}\cdot \left(f_m(x)-f_{m-1}(x)\right)\\& = L(y,f_{m-1}(x))+\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}\cdot T(x;\Theta_m)\end{aligned}$

即有：

$\begin{aligned}L(y,f_{m-1}(x))-L(y,f_m(x))&\approx -\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}\cdot T(x;\Theta_m)\end{aligned}$

当 $T(x;\Theta_m)\approx -\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}$ 时， $L(y,f_{m-1}(x))-L(y,f_m(x))\geq 0$
，其中该式子一旦等于0就终止训练。

$r_m(x,y)=-\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}$ ，将 $x_i,y_i)$ 代入 $r_m(x,y)$ ，即可得到 $r_m$ ，进而得到第 $m$ 轮的训练数据集： $T_m=\{(x_1,r_{m1}),(x_2,r_{m2}),\cdots,(x_N,r_{mN})\}$ ，其中 $r_m$ 是被划分的输入空间， $c_m$ 空间 $r_m$ 对应的输出值。

3.4.3 梯度提升

1.计算当前损失函数的负梯度表达式
$r_m(x,y)=-\frac{\partial L(y,f_m(x))}{\partial f_m(x)}|_{f_m(x)=f_{m-1}(x)}$

2.构造新的训练样本
将 $x_i,y_i)$ 代入 $r_m(x,y)$ ，即可得到 $r_m$ ，进而得到第 $m$ 轮的训练数据集： $T_m=\{(x_1,r_{m1}),(x_2,r_{m2}),\cdots,(x_N,r_{mN})\}$ ，其中 $r_m$ 是被划分的输入空间， $c_m$ 空间 $r_m$ 对应的输出值。

3.让当前的基学习器去拟合上述训练样本，得到 $T(x;\Theta_m)$

3.5 算法流程

输入是训练集样本 $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，最大迭代次数T, 损失函数L。
输出是强学习器 $f (x)$

初始化弱学习器 $f_0(x) = \underbrace{arg\; min}_{c}\sum\limits_{i=1}^{m}L(y_i, c)$
对迭代轮数t=1,2,…T有：
a) 对样本 $i=1,2,\cdots,m$ ，计算负梯度 $\begin{aligned}r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1} (x)}\end{aligned}$
b) 利用 $x_i,r_{ti})(i=1,2,..m)$ , 拟合一棵CART回归树,得到第t颗回归树，其对应的叶子节点区域为 $R_{tj}, j =1,2,..., J$ 。其中J为回归树t的叶子节点的个数。
c) 对叶子区域j =1,2,…J,计算最佳拟合值 $c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$
d) 更新强学习器 $f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$
得到强学习器f(x)的表达式 $f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

对(1)初始化的说明：

$f_0(x)=\arg\min_c\sum_{i=1}^NL(y_i,c)$
假设L且MSE，对它求导：
$\begin{aligned}\frac{\partial \sum_{i=1}^N(y_i-c)^2}{\partial c}&=\sum_{i=1}^N-2(y_i-c)\\&=\sum_{i=1}^N(2c-2y_i)\\&=2N\cdot c-2\sum_{i=1}^Ny_i\end{aligned}$
令 $2N\cdot c-2\sum_{i=1}^Ny_i=0\rightarrow c=\frac{1}{N}\sum_{i=1}^Ny_i$ 。

3.6 思路

3.6.1 个体学习器如何训练得到

改变训练数据的权值或者概率分布，如何改变?

拟合负梯度

3.6.2 如何将个体学习组合

简单组合

3.6.3 目标

$\begin{aligned}&L(y^{(i)},f_m(x^{(i)}))<L(y^{(i)},f_{m-1}(x^{(i)}))\rightarrow L(y^{(i)},f_{m-1}(x^{(i)}))-L(y^{(i)},f_m(x^{(i)}))>0\end{aligned}$
使得总体损失逐步减小

3.7 例题

$L=\frac{1}{2}(y-f_m(x))^2$

求负梯度： $-\frac{\partial L}{\partial f_m(x)}=y-f_m(x)=r_m$

$\begin{aligned}\hat\theta_m&=\arg\min_{\theta m}\sum_{i=1}^NL(y^{(i)},f_{m-1}(x^{(i)})+T(x^{(i)},\theta_m))\\&=\arg\min_{\theta m}\sum_{i=1}^N(r_m^{(i)}-T(x^{(i)},\theta_m))\end{aligned}$

3.8 GBDT的优缺点

3.8.1 GBDT主要的优点

1.可以灵活处理各种类型的数据，包括连续值和离散值。
2.在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
3.使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

3.8.2 GBDT的主要缺点

1.由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

4.GBDT解决二分类问题

4.1 面临的问题

GBDT使用基分类器是回归树，其加法模型无法直接输出类别或者概率预估。

4.2 解决方案

4.2.1 逻辑回归做二分类

以往直接用逻辑回归做二分类问题时的解决方案就是用一个sigmoid函数，将输出映射到0-1的概率空间：

$Z=w_1x_1+w_2x_2+\cdots+w_nx_n+b=wx+b\\\hat y = \frac{1}{1+e^{-Z}}\\J=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\log \hat y^{(i)}+(1-y^{(i)}\log(1-y^{(i)})\right],交叉熵$

4.2.2 学传统逻辑回归的解决方案

通过sigmoid函数，将加法模型f(x)映射到0~1的概率空间：

模仿线性模型（交叉熵损失）： $f_m(x)=\sum_{m=1}^M T(x;\Theta_m)\\ \hat y= \frac{1}{1+e^{-f_m(x)}}\\J=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\log \hat y^{(i)}+(1-y^{(i)}\log(1-y^{(i)})\right]$

4.3 模型

使用加法模型：
$T(x;\Theta)=\sum_{j=1}^Jc_jI(x\in R_j)\\f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$
，其中 $T$ 前面有时有一个学习率当系数，是为了解决过拟合。

4.4 基学习器

真实值 $y$ 与整个加法模型的损失，所以要将交叉熵公式转化为 $y$ 和 $f_m(x)$ ，这也是因为残差是损失函数的负梯度。
最终的损失如下：
$L(y,f_m(x))=\log(1+e^{-f_m(x)})+(1-y)\cdot f_m(x)$
推导过程：
$\hat y= \frac{1}{1+e^{-f_m(x)}}$

$\begin{aligned}L&=-y\log\hat y-(1-y)\log(1-\hat y)\\&=-y\log\frac{1}{1+e^{-f_m(x)}}-(1-y)\log\left(1-\frac{1}{1+e^{-f_m(x)}}\right)\\&=y\log\left(1+e^{-f_m(x)}\right)-(1-y)\left[\log e^{-f_m(x)}-\log(1+e^{-f_m(x)})\right]\\&=y\log\left(1+e^{-f_m(x)}\right)-(1-y)\left[-f_m(x)-\log(1+e^{-f_m(x)})\right]\\&=y\log\left(1+e^{-f_m(x)}\right)+(1-y)f_m(x)+(1-y)\log(1+e^{-f_m(x)})\\&=\log(1+e^{-f_m(x)})+(1-y)f_m(x)\end{aligned}$

4.4.1 前向分步算法+梯度提升

1.核心目标
$\begin{aligned}&L(y^{(i)},f_m(x^{(i)}))<L(y^{(i)},f_{m-1}(x^{(i)}))\rightarrow L(y^{(i)},f_{m-1}(x^{(i)}))-L(y^{(i)},f_m(x^{(i)}))>0\end{aligned}$

2.梯度提升
1.计算当前损失函数的负梯度表达式

$L(y,f_m(x))=\log(1+e^{-f_m(x)})+(1-y)\cdot f_m(x)$
$\begin{aligned}\frac{\partial L(y,f_m(x))}{\partial f_m(x)}&=\frac{\partial \left[\log(1+e^{-f_m(x)})+(1-y)\cdot f_m(x)\right]}{\partial f_m(x)}\\&=\frac{\partial \log(1+e^{-f_m(x)})}{\partial f_m(x)}+\frac{\partial(1-y)\cdot f_m(x)}{\partial f_m(x)}\\&=-\frac{e^{-f_m(x)}}{1+e^{-f_m(x)}}+1-y\\&=\frac{-e^{-f_m(x)}+(1-y)(1+e^{-f_m(x)})}{1+e^{-f_m(x)}}\\&=\frac{1-(1+e^{-f_m(x)})y}{1+e^{-f_m(x)}}\\&=\frac{1}{1+e^{-f_m(x)}}-y\end{aligned}$

2.构造新的训练样本

将 $x_i,y_i)$ 代入 $r_m(x,y)$ 即可得到 $r_{m1}$ ，进而得到第m轮的训练数据集：
$T_m=\{(x_1,r_{m1}),(x_2,r_{m2}),\cdots,(x_N,r_{mN})\}$
$r_m(x,y)=-\left[\frac{\partial L(y,f_m(x))}{\partial f_m(x)}\right]_{f_m(x)=f_{m-1}(x)}=-\left[\frac{1}{1+e^{-f_{m-1}(x)}}-y\right]=y-\hat y_{m-1}$
即： $r_{mi}=y_i-\hat y_{m-1,i}$ 。

3.让当前的回归树拟合上述训练样本，得到 $T(x;\Theta_m)$ 。

3.面临问题
1.如何构造回归树 $T(x;\Theta_m)$

1.树的深度如何决定
2.划分节点如何选取
3.叶子节点代表的值 $c_m$ 如何定

2.如何衡量 $T(x;\Theta_m)$ 对残差（负梯度）的拟合效果？
使用传统的损失函数无法达到最优效果，使用总体损失又缺乏闭式解。
划分方式 $\rightarrow$ 损失函数： $\frac{1}{n}\sum_{i=1}^n(f(x_i)-r_{mi})$ ， $c_{mj}^*=\frac{1}{N_{mj}}\sum_{x_i\in R_{mj}}r_{mi}$

划分方式 $\rightarrow$ 负梯度拟合效果 $\Leftrightarrow$ 损失函数：总体损失 $\sum_{x_i\in R_{mj}}\left[\log(1+e^{-f_m(x_i)})+(1-y_i)\cdot f_m(x_i)\right]$ ， $c_{mj}^*=\arg\min\sum_{x_i\in R_{mj}}L(y_i,f_{m-1}(x_i)+c_{mj})$

为了得到闭式解：

使用总体损失的大小来衡量负梯度的拟合效果，是最好的但是该优化无法得到闭式解。通过泰勒二阶展开，得到闭式解：
$C_{mj}^*=\frac{\sum_{x_i\in R_{mj}}r_{mi}}{\sum_{x_i\in R_{mj}}(y_i-r_{mi})(1-y_i+r_{mi})}$

推导过程：

二阶泰勒展开：
$f(x)\approx f(x_0)+f^{'}(x_0)(x-x_0)+\frac{1}{2}f^{"}(x_0)(x-x_0)^2$
对 $L(y_i,f_{m-1}(x_i)+C_{mj})$ 进行二阶泰勒展开，其中 $x_i\in R_{mj}$
$\begin{aligned}L(y_i,f_{m-1}(x_i)+C_{mj})&\approx L(y_i,f_{m-1}(x_i))+\frac{\partial L(y_i,f_m(x_i))}{\partial f_m(x_i)}|_{f_m(x_i)=f_{m-1}(x_i)}\cdot C_{mj}+\frac{\partial^2 L(y_i,f_m(x_i))}{\partial f_m(x_i)^2}|_{f_m(x_i)=f_{m-1}(x_i)}\cdot C_{mj}^2\\& = L(y,f_{m-1}(x))-+（\hat y_{m-1,i}-y_i）C_{mj}+\frac{1}{2}\hat y_{m-1,i}(1-\hat y_{m-1,i})C_{mj}^2,其中x_i \in R_{mj}\end{aligned}$
因此有：
$C_{mj}^*=\arg\min\sum_{x_i\in R_{mj}}L(y_i,f_{m-1}(x_i)+C_{mj})$
$\begin{aligned}\sum_{x_i\in R_{mj}}L(y_i,f_{m-1}(x_i)+C_{mj})&=\sum_{x_i\in R_{mj}}\left[L(y,f_{m-1}(x))+（\hat y_{m-1,i}-y_i）C_{mj}+\frac{1}{2}\hat y_{m-1,i}(1-\hat y_{m-1,i})C_{mj}^2\right],其中x_i \in R_{mj}\\&=\sum_{x_i\in R_{mj}}L(y,f_{m-1}(x))+N_{mj}C_{mj}\sum_{x_i\in R_{mj}}(\hat y_{m-1,i}-y_i)+\frac{1}{2}N_{mj}C_{mj}^2\sum_{x_i\in R_{mj}}(1-\hat y_{m-1,i})\hat y_{m-1,i}\end{aligned}$
式中只有 $C_{mj}$ 为变量，且是一个一元二次方程， $(1-\hat y_{m-1,i})\hat y_{m-1,i}>0$ ，开口向上，有最小值当且仅当：
$\begin{aligned}C_{mj}^*&=-\frac{b}{2a}=-\frac{N_{mj}\cdot\sum_{x_i\in R_{mj}}(\hat y_{m-1,i}-y_i)}{N_{mj}\cdot\sum_{x_i\in R_{mj}}(1-\hat y_{m-1,i})\hat y_{m-1,i}}\\&=-\frac{\sum_{x_i\in R_{mj}}(\hat y_{m-1,i}-y_i)}{\sum_{x_i\in R_{mj}}(1-\hat y_{m-1,i})\hat y_{m-1,i}},因为r_{mi}=y_i-\hat y_{m-1,i}\\&=\frac{\sum_{x_i\in R_{mj}} r_{mi}}{\sum_{x_i\in R_{mj}}(y_i-r_{mi})(1-y_i+r_{mi})}\end{aligned}$