梯度提升树算法详解

Suppose-dilemma

已于 2022-09-18 22:52:42 修改

阅读量392

点赞数 1

分类专栏：机器学习文章标签：算法机器学习人工智能

于 2022-09-18 19:16:48 首次发布

本文链接：https://blog.csdn.net/ifhuke/article/details/126917324

版权

机器学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

文章目录

1. GBDT 概述
2. GBDT 负梯度拟合
3. GBDT 损失函数
- 3.1 分类算法
- 3.2 回归算法
4. GBDT 回归算法
5. GBDT 二分类算法
6. GBDT 多分类算法
7. 提升树示例

1. GBDT 概述

GBDT（梯度提升树）也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

GBDT的迭代是针对当前模型的负梯度来进行拟合，比如当前模型与真实值差为5，下一个弱学习器用4去拟合差值5，还剩下1，下下个弱学习器又用0.5去拟合差值1，还剩0.5，使值误差越来越小。

2. GBDT 负梯度拟合

设学习器为 $F$ ，损失函数为 $L (y, F)$ ，则根据梯度下降有：
$F_i = F_{i-1}- \frac{dL(y,F)}{dF}$ GBDT采用的是加法模型，即
$F_i = F_{i-1} + T$ 所以得到拟合的目标即是负梯度
$T=-\frac{dL(y,F)}{dF}$

3. GBDT 损失函数

3.1 分类算法

指数损失函数
$L (y, f (x)) = e x p (- y f (x))$
二分类对数损失
$L (y, f (x)) = l o g (1 + e x p (- y f (x)))$
多分类对数损失，设类别数为 $K$ ，
$\sum\limits_{k=1}^{K}y_klog\;p_k(x)$

3.2 回归算法

均方差
$L(y, f(x)) =(y-f(x))^2$
绝对损失
$L (y, f (x)) = ∣ y - f (x) ∣$ 负梯度为
$sign(y_i-f(x_i))$
Huber损失，它是均方差和绝对损失的折中产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下：
$\begin{cases} \frac{1}{2}(y-f(x))^2& {|y-f(x)| \leq \delta}\\ \delta(|y-f(x)| - \frac{\delta}{2})& {|y-f(x)| > \delta} \end{cases}$
负梯度为：
$r(y_i, f(x_i))= \begin{cases} y_i-f(x_i)& {|y_i-f(x_i)| \leq \delta}\\ \delta sign(y_i-f(x_i))& {|y_i-f(x_i)| > \delta} \end{cases}$
分位数损失。它对应的是分位数回归的损失函数，表达式为
$=\sum\limits_{y \geq f(x)}\theta|y - f(x)| + \sum\limits_{y < f(x)}(1-\theta)|y - f(x)|$
负梯度为
$r(y_i, f(x_i))= \begin{cases} \theta& { y_i \geq f(x_i)}\\ \theta - 1 & {y_i < f(x_i) } \end{cases}$
对于Huber损失和分位数损失，主要用于减少异常点对损失函数的影响。

4. GBDT 回归算法

输入是训练集样本 $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，最大迭代次数 $T$ , 损失函数 $L$ 。
输出是强学习器 $f (x)$ 。

(1) 初始化弱学习器
$f_0(x) = \underbrace{arg\; min}_{c}\sum\limits_{i=1}^{m}L(y_i, c)$ (2) 对迭代轮数 $t=1,2,\cdots,T$ 有：
(a) 对样本 $i=1,2,\cdots,m$ ，计算负梯度
$r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)}$
(b) 利用 $(x_i,r_{ti})\;\; (i=1,2,\cdots,m)$ ，拟合一棵CART回归树，得到第 $t$ 棵回归树，其对应的叶子节点区域为 $R_{tj}, j =1,2,..., J$ ，其中 $J$ 为回归树 $t$ 的叶子节点的个数。
(c) 对叶子区域 $=1,2,\cdots,J$ ，计算最佳拟合值
$c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$ (d) 更新强学习器
$f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$ (3) 构建最终学习器为：
$f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

5. GBDT 二分类算法

对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为：
$L (y, f (x)) = l o g (1 + e x p (- y f (x)))$ 其中 $\in\{-1, +1\}$ ，则此时的负梯度误差为
$r_{ti} = -\bigg[\frac{\partial L(y, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)} = \frac{y_i}{(1+exp(y_if(x_i)))}$ 对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为
$c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} log(1+exp(-y_i(f_{t-1}(x_i) +c)))$ 由于上式比较难优化，我们一般使用近似值代替
$c_{tj} =\frac{ \sum\limits_{x_i \in R_{tj}}r_{ti}}{ \sum\limits_{x_i \in R_{tj}}|r_{ti}|(1-|r_{ti}|)}$ 除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同。

6. GBDT 多分类算法

假设类别数为K，则此时我们的对数似然损失函数为：
$\sum\limits_{k=1}^{K}y_klog\;p_k(x)$ 其中如果样本输出类别为 $k$ ，则 $y_k=1$ 。第 $k$ 类的概率 $p_k(x)$ 的表达式为：
$p_k(x) = \frac{exp(f_k(x)) }{\sum\limits_{l=1}^{K} exp(f_l(x))}$ 集合上两式，我们可以计算出第 $t$ 轮的第 $ i$ 个样本对应类别 $l$ 的负梯度误差为
$r_{til} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f_k(x) = f_{l, t-1}\;\; (x)} = y_{il} - p_{l, t-1}(x_i)$ 对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为
$c_{tjl} = \underbrace{arg\; min}_{c_{jl}}\sum\limits_{i=0}^{m}\sum\limits_{k=1}^{K} L(y_k, f_{t-1, l}(x) + \sum\limits_{j=0}^{J}c_{jl} I(x_i \in R_{tjl}))$ 由于上式比较难优化，我们一般使用近似值代替
$c_{tjl} = \frac{K-1}{K} \; \frac{\sum\limits_{x_i \in R_{tjl}}r_{til}}{\sum\limits_{x_i \in R_{til}}|r_{til}|(1-|r_{til}|)}$ 除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，多元GBDT分类和二元GBDT分类以及GBDT回归算法过程相同。