Boosting GBDT

最新推荐文章于 2023-05-27 23:53:31 发布

kakak_

最新推荐文章于 2023-05-27 23:53:31 发布

阅读量214

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105158014

版权

38 篇文章 2 订阅

订阅专栏

梯度提升树(Gradient Boosting Decison Tree, GBDT)

GBDT是集成学习Boosting家族的成员，也是使用前向分布算法迭代，但是迭代思路和传统的Adaboost有很大的不同。弱学习器也限定了只能使用CART回归树模型。

Adaboost

GBDT

假设前一轮迭代得到的强学习器是 $f_{t-1}(x)$ ，损失函数是 $L(y, f_{t-1}(x))$ ，
本轮迭代的目标是找到一个CART回归树模型的弱学习器 $h_t(x)$ ，让本轮的损失函数 $L(y, f_t(x))=L(y, f_{t-1}(x)+h_t(x))$ 最小。

GBDT的负梯度拟合

损失函数拟合方法：Freidman提出的用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。

第t轮的第i个样本的损失函数的负梯度表示为 $r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1} (x)}$ 利用 $x_i,r_{ti})$ $(i = 1, 2, . ., m)$ 拟合第t颗回归树，其对应的叶节点区域𝑅𝑡𝑗 (𝑗=1,2,…,𝐽)。
针对每一个叶子节点里的样本，求出使损失函数最小的输出值 $c_{tj}$ （即输入x对应的叶节点域𝑅𝑡𝑗得到的最好的回归梯度 $r_{ti}$ )： $c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$
所以本轮的决策树拟合函数: $h_t(x) = \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$
从而本轮最终得到的强学习器的表达式: $f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$
用GBDT来解决我们的分类回归问题，区别仅仅在于损失函数不同导致的负梯度不同而已。

GBDT回归算法

输入是训练集样本 $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，最大迭代次数T，损失函数L。
输出是强学习器f(x)

初始化弱学习器 $f_0(x) = \underbrace{arg\; min}_{c}\sum\limits_{i=1}^{m}L(y_i, c)$
对迭代轮数t = 1,2,…T有：
- 对样本i=1,2，…m，计算负梯度 $r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1} (x)}$
- 利用 $x_i,r_{ti})$ $(i = 1, 2, . ., m)$ 拟合第t颗回归树，其对应的叶节点区域𝑅𝑡𝑗 (𝑗=1,2,…,𝐽)。
- 对叶子区域j = 1,2,…J, 计算最佳拟合值 $c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$
- 更新强学习器 $f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$
得到强学习器f(x)的表达式 $f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

GBDT分类算法

由于样本输出不是连续的值，而是离散的类别，导致无法直接从输出类别去拟合类别输出的误差。

二元GBDT分类算法

对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数： $L (y, f (x)) = l o g (1 + e x p (- y f (x)))$ $\in\{-1, +1\}$
负梯度误差 $r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1} (x)}=y_i/(1+ exp(yf(x)))$
对于生成的决策树，各个叶子节点的最佳负梯度拟合值为 $c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} log(1+exp(-y_i(f_{t-1}(x_i) +c)))$
由于上式比较难优化，一般使用近似值代替 $c_{tj} = \sum\limits_{x_i \in R_{tj}}r_{ti}\bigg / \sum\limits_{x_i \in R_{tj}}|r_{ti}|(1-|r_{ti}|)$
除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，剩余与GBDT回归算法过程相同。

多元GBDT分类算法

假设类别数为K，则此时对数似然损失函数为： $\sum\limits_{k=1}^{K}y_klog\;p_k(x)$ 其中如果样本输出类别为k，则 $y_k=1$ 。
第k类的概率 $p_{k(x)}$ 的表达式为 $p_k(x) = exp(f_k(x)) \bigg / \sum\limits_{l=1}^{K} exp(f_l(x))$
第𝑡轮的第𝑖个样本对应类别𝑙的负梯度误差为 $r_{til} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f_k(x) = f_{l, t-1}(x)} = y_{il} - p_{l, t-1}(x_i)$ 这里的误差就是样本𝑖对应类别𝑙的真实概率和𝑡−1轮预测概率的差值。
对于 $x_i,r_{ti})$ $(i = 1, 2, . ., m)$ 生成的决策树，各个叶子节点的最佳负梯度拟合值为 $c_{tjl} = \underbrace{arg\; min}_{c_{jl}}\sum\limits_{i=0}^{m}\sum\limits_{k=1}^{K} L(y_k, f_{t-1, l}(x) + \sum\limits_{j=0}^{J}c_{jl} I(x_i \in R_{tjl}))$
由于上式比较难优化，一般使用近似值代替 $c_{tjl} = \frac{K-1}{K} \; \frac{\sum\limits_{x_i \in R_{tjl}}r_{til}}{\sum\limits_{x_i \in R_{til}}|r_{til}|(1-|r_{til}|)}$
除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，剩余与二元GBDT分类以及GBDT回归算法过程相同。

GBDT常用损失函数

对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:

对于回归算法，常用损失函数有如下4种:

均方差损失 $L(y, f(x)) =(y-f(x))^2$
绝对损失 $L (y, f (x)) = ∣ y - f (x) ∣$ 对应负梯度误差为： $sign(y_i-f(x_i))$
Huber损失，均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。 $\begin{cases} \frac{1}{2}(y-f(x))^2& {|y-f(x)| \leq \delta}\\ \delta(|y-f(x)| - \frac{\delta}{2})& {|y-f(x)| > \delta} \end{cases}$ 对应的负梯度误差为 $r(y_i, f(x_i))= \begin{cases} y_i-f(x_i)& {|y_i-f(x_i)| \leq \delta}\\ \delta sign(y_i-f(x_i))& {|y_i-f(x_i)| > \delta} \end{cases}$
分位数损失 $=\sum\limits_{y \geq f(x)}\theta|y - f(x)| + \sum\limits_{y < f(x)}(1-\theta)|y - f(x)|$ 其中𝜃为分位数，需要在回归前指定。对应的负梯度误差为 $r(y_i, f(x_i))= \begin{cases} \theta& { y_i \geq f(x_i)}\\ \theta - 1 & {y_i < f(x_i) } \end{cases}$

对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

GBDT的正则化

为了防止过拟合，需要对GBDT进行正则化。

步长(learning rate)，定义为𝜈 $f_{k}(x) = f_{k-1}(x) + \nu h_k(x)$ 𝜈的取值范围为0 < 𝜈 ≤ 1，对于同样的训练集学习效果，较小的𝜈意味着需要更多的弱学习器的迭代次数。
通过子采样比例（subsample）, 取值为(0,1]。这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。
使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)
对于弱学习器即CART回归树进行正则化剪枝。