树模型-GBDT

最新推荐文章于 2024-07-22 18:48:38 发布

myazi

最新推荐文章于 2024-07-22 18:48:38 发布

阅读量870

点赞数

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/u010865478/article/details/82708427

版权

机器学习同时被 2 个专栏收录

42 篇文章 5 订阅

订阅专栏

机器学习

30 篇文章 2 订阅

订阅专栏

树模型

1、决策树 ID3，C4.5，CART

2、随机森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（异常检测）

四、GBDT

提升树，GBDT同样基于最小化第 $m$ 个学习器和前 $m-1$ 个学习器累加起来损失函数最小，提升树采用残差的思想来最小化损失函数，将投票权重放到学习器上，使得基学习器的权重都为1；GBDT将损失用一阶多项式拟合，基学习器拟合梯度，学习器的权重为一阶多项式的系数。

在前面的Adaboost中，我们需要学习 $M$ 个基学习器，赋予不同的权重组合得到最后的强学习器。它是基于 $M$ 个基学习器组合而成。而提升树中，直接将他们以“残差（损失函数的残差）”的形式累加起来，故也为加法模型，而且是逐步累加。

提升树模型如下：

f M (x) = \sum m = 1 M T (x; θ m)

$f_M(x) = \sum_{m=1}^M T(x; \theta_m)$
其中，

T(x,θm) T ( x , θ m ) $T(x,\theta_{m})$ 表示决策树，

θm θ m $\theta_{m}$ 为决策树的参数，

M M $M$ 为树的个数。

提升树优化过程：

输入：训练集 $\left \{ (x_i,y_i)\right \}^N_{i=1}$ ，损失函数 $L(y,f(x))$

输出：提升树 $f_{M}(x)$

1)初始化 $f_{0}(x)=0$

2)对 $m=1,2,...M$

a）计算残差:

r m i = y i - f m - 1 (x i), {1, 2, \dots, N}

$r_{mi} = y_{i}-f_{m-1}(x_{i})\ \ \ ,\left \{1,2,…,N \right \}$
b）拟合残差

rmi r m i $r_{mi}$ 学习基学习器

T(x;θm) T ( x ; θ m ) $T(x;\theta_{m})$ ，训练集为

{(xi,rmi)}Ni=1 { ( x i , r m i ) } i = 1 N $\left \{ (x_i,r_{mi})\right \}^N_{i=1}$

c）更新模型： $f_{m}(x) = f_{m-1}(x) + T(x; \theta_m)$

3）得到最终的强学习器

f M (x) = \sum m = 1 M T (x; θ m)

$f_M(x) = \sum_{m=1}^M T(x; \theta_m)$
可以看出，提升树本质与Adboost一致，也是最小化第

m m $m$ 个学习器和前

m - 1

$m-1$ 个学习器组合的损失函数，不同的是提升树采用决策树作为基学习器，采用残差的思想使得每个决策树的投票权重为

1 1 $1$ 。

GBDT

GBDT是基学习器采用的Decision Tree的Gradient Boosting方法。Gradient Boosting模型与Adaboost的形式一致，采用 $M$ 个基学习器的线性组合得到最终模型：

f M (x) = \sum m γ m T (x; θ m)

$f_M(x) = \sum_m \gamma_m T(x; \theta_m)$
首先确定初始模型，定义初始基学习器

f0(x) f 0 ( x ) $f_0(x)$ ，当模型迭代到第

m m $m$ 步时：

f_{m} (x) = f_{m - 1} (x) + γ_{m} T (x; θ_{m})

$f_m(x) = f_{m-1}(x) + \gamma_mT(x; \theta_m)$
通过最小化损失来确定参数

θm θ m $θ_m$ 的值：

a r g min θ m \sum i L (y i, f m - 1 (x i) + γ m T (x; θ m))

$arg \min_{\theta_m} \sum_iL(y_i,f_{m-1}(x_i) + \gamma_mT(x; \theta_m))$
这里有两种理解Gradient Boosting的方式，从优化角度可以理解是采用梯度下降算法，

T T $T$ 表示负梯度方向，

γ_{m}

$\gamma_{m}$ 为步长。从模型角度我们可以理解为损失函数一阶多项式展开

γmT(x,θm)+fm−1 γ m T ( x , θ m ) + f m − 1 $\gamma_{m}T(x,\theta_{m})+f_{m-1}$ ，而

T T $T$ 表示一阶信息，

γ_{m}

$\gamma_m$ 为系数。

优化角度，保证损失函数在递减：

L (y i, f m (x i)) < L (y i, f m - 1 (x i))

$L(y_i,f_m(x_i)) < L(y_i,f_{m-1}(x_i))$
为了使得损失函数不断减少，即梯度下降：

f m (x i) = f m - 1 (x i) + γ m (- \partial L ( y i , f m - 1 ( x i ) ) \partial f m - 1 ( x i ))

$f_{m}(x_i) = f_{m-1}(x_i) +\gamma_{m}\left(-\frac{\partial L(y_i,f_{m-1}(x_i))}{\partial f_{m-1}(x_i)}\right)$

fm(x)=fm−1(x)+γmT(x;θm) f m ( x ) = f m − 1 ( x ) + γ m T ( x ; θ m ) $f_m(x) = f_{m-1}(x) + \gamma_mT(x; \theta_m)$ 代入上式有：

T (x; θ m) = - \partial L ( y i , f m - 1 ( x i ) ) \partial f m - 1 ( x i )

$T(x; \theta_m)=-\frac{\partial L(y_i,f_{m-1}(x_i))}{\partial f_{m-1}(x_i)}$
所以 Gradient Boosting 的算法流程如下：

输入：训练集 $\left \{ (x_i,y_i)\right \}^N_{i=1}$ ，损失函数 $L(y,f(x))$

输出： $f_{M}(x)$

1)初始化 $f_{0}(x)=0$

2)对 $m=1,2,...M$

a）计算梯度:

r m i = [- \partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x i) = f m - 1 (x), {1, 2, \dots, N}

$r_{mi} = \left [ -\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right ]_{f(x_i) = f_{m-1}(x)} \ \ \ ,\left \{1,2,…,N \right \}$
b）拟合梯度

rmi r m i $r_{mi}$ 学习基学习器

T(x;θm) T ( x ; θ m ) $T(x;\theta_{m})$ ，训练集为

{(xi,rmi)}Ni=1 { ( x i , r m i ) } i = 1 N $\left \{ (x_i,r_{mi})\right \}^N_{i=1}$

c）根据梯度下降算法，计算学习器 $\gamma_{m}$ :

γ m = a r g min γ \sum i L (y i, f m - 1 (x i) + γ T (x; θ m))

$\gamma_m = arg \min_{\gamma}\sum_iL(y_i,f_{m-1}(x_i) + \gamma T(x; \theta_m))$
d）更新模型：

fm(x)=fm−1(x)+γmT(x;θm) f m ( x ) = f m − 1 ( x ) + γ m T ( x ; θ m ) $f_{m}(x) = f_{m-1}(x) + \gamma_m T(x; \theta_m)$

3）得到最终的强学习器

f M (x) = \sum m = 1 M γ m T (x; θ m)

$f_M(x) = \sum_{m=1}^M \gamma_m T(x; \theta_m)$
可以看出 Gradient Boosting 是一个不断基于残差弥补的模型，目标不断地减少Bais，而没有关注Variance。它不像随机森林的集成引入随机性减少Variance的思想。

下面考虑决策树为基学习器的Gradient Boosting的方法GBDT，其在GB基础上有两点值得一提：

1）GBDT，采用决策树作为基函数将样本划分到固定数目 $J$ 个决策区间 $R_{mj},j=1,2..J,m=1,2..M$

2）在决策树中决策函数采用指示函数 $I(x\in R_{mj})$ ，梯度与步长的积直接放到 $\gamma_{mj}$ 上

下面给出GBDT回归和分类两个问题的算法流程

1）GBDT 回归

输入：训练集 $\left \{ (x_i,y_i)\right \}^N_{i=1}$ ， $x_i \in \mathbb{R}^n,y \in \mathbb{R}$ ，损失函数 $L(y,f(x))$

输出： $f_{M}(x)$

1)初始时给出一个最优的偏置常数 $c$ ， $f_{0}(x)=c$

f 0 (x) = a r g min c \sum i L (y i, c)

$f_0(x) = arg\min_c \sum_i L(y_i , c)$
2)对

m=1,2,...M m = 1 , 2 , . . . M $m=1,2,...M$

a）计算梯度:

r m i = [- \partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x i) = f m - 1 (x), {1, 2, \dots, N}

$r_{mi} = \left [ -\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right ]_{f(x_i) = f_{m-1}(x)} \ \ \ ,\left \{1,2,…,N \right \}$
b）拟合梯度

rmi r m i $r_{mi}$ 学习一个回归树

T(x;θm)=αI(x∈Rmj) T ( x ; θ m ) = α I ( x ∈ R m j ) $T(x;\theta_{m})\!=\!\alpha I(x \in R_{mj})$ ，产生

J J $J$ 个决策区间

R_{m j}, j = 1, 2.. J

$R_{mj},j=1,2..J$

c）对于决策区间 $j=1,2..J$ ，计算 $\gamma_{mj}$ :

γ m j = a r g min γ \sum x i \in R m j L (y i, f m - 1 (x i) + γ m j I (x \in R m j))

$\gamma_{mj} = arg \min_{\gamma}\sum_{x_{i}\in R_{mj}}L(y_i,f_{m-1}(x_i) + \gamma_{mj} I(x \in R_{mj}))$
d）更新模型：

fm(x)=fm−1(x)+∑Jj=1γmjI(x∈Rmj) f m ( x ) = f m − 1 ( x ) + ∑ j = 1 J γ m j I ( x ∈ R m j ) $f_{m}(x) = f_{m-1}(x) +\sum_{j=1}^{J}\gamma_{mj} I(x \in R_{mj})$

3）得到最终的强学习器

f M (x) = \sum m = 1 M \sum j = 1 J γ m j I (x \in R m j)

$f_M(x) = \sum_{m=1}^M \sum_{j=1}^{J}\gamma_{mj} I(x \in R_{mj})$
2） GBDT分类

考虑 $K$ 分类问题，采用Softmax思想，将 $K$ 类映射到 $K$ 维。第 $m$ 个决策树的决策第 $k$ 维的值为 $f_{M,k}(x)$ ，对输出进行Softmax归一化，可以得到 $k$ 类的概率为 $p_{m,k}(x)，$ $K$ 类的概率和 $\sum_{k}p_{m,k}(x)=1$ ，分类损失函数采用交叉熵损失。

p m, k (x) = e x p ( f m , k ( x ) ) \sum K l = 1 e x p ( f m , l ( x ) ), k = 1, \dots, K

$p_{m,k}(x) = \frac{exp(f_{m,k}(x))}{\sum^K_{l = 1}exp(f_{m,l}(x))}, \ \ \ k=1,…,K$
似然函数为：

L (y i, f m (x i)) = \prod k = 1 K [f m, k (x i)] y i k

$L(y_i,f_{m}(x_i)) = \prod_{k=1}^K [f_{m,k}(x_i)]^{y_{ik}}$
对数损失函数为：

L (y i, f m (x i)) = - \sum k = 1 K y i k l o g f m, k (x i)

$L(y_i,f_{m}(x_i)) = -\sum_{k=1}^K y_{ik}log f_{m,k}(x_i)$
由于Softmax将分类映射到

K K $K$ 维，对应的基分类器和损失函数都是

K

$K$ 维。因此算法流程中负梯度方向也是一个

K K $K$ 维向量。

输入：训练集 $\left \{ (x_i,y_i)\right \}^N_{i=1}$ ， $x_i \in \mathbb{R}^n,y \in \mathbb{R}$ ，损失函数 $L(y,f(x))$

输出： $f_{M}(x)$

1)初始时 $f_{0,k}(x)=0$

2)对 $m=1,2,...M$

a）对决策树 $f_{m-1,k}$ 进行Softmax归一化

p m - 1, k (x) = e x p ( f m - 1 , k ( x ) ) \sum K l = 1 e x p ( f m - 1 , l ( ( x ) ), k = 1, \dots, K

$p_{m-1,k}(x) = \frac{exp(f_{m-1,k}(x))}{\sum^K_{l = 1}exp(f_{m-1,l}((x))}, \ \ \ k=1,…,K$
b）对

k=1,2..K k = 1 , 2.. K $k=1,2..K$

ba）计算梯度

r i k = \partial L ( y i , f m - 1 ( x i ) ) \partial f m - 1 , k ( x i ) = y i k - p m - 1, k (x i), i = 1, 2, \dots N

$r_{ik} = \frac{\partial L(y_i,f_{m-1}(x_i))}{ \partial f_{m-1,k}(x_i)} = y_{ik} –p_{m-1,k}(x_i), \ \ i = 1,2,…N$
bb）拟合梯度

rik r i k $r_{ik}$ 学习第

m m $m$ 个决策树

T (x; θ_{m}) = α I (x \in R_{m k j})

$T(x;\theta_{m})\!=\!\alpha I(x \in R_{mkj})$ 在第

k k $k$ 维产生的

J

$J$ 个决策区间

Rmkj,j=1,2..J R m k j , j = 1 , 2.. J $R_{mkj},j=1,2..J$

r i k = \partial L ( y i , f m - 1 ( x i ) ) \partial f m - 1 , k ( x i ) = y i k - p m - 1, k (x i), i = 1, 2, \dots N

$r_{ik} = \frac{\partial L(y_i,f_{m-1}(x_i))}{ \partial f_{m-1,k}(x_i)} = y_{ik} –p_{m-1,k}(x_i), \ \ i = 1,2,…N$
bc）计算第

m m $m$ 颗树第

k

$k$ 维在区间

Rmj R m j $R_{mj}$ 的参数

γmkj γ m k j $\gamma_{mkj}$

γ m k j = K - 1 K \sum x i \in R m k j r i k \sum x i \in R m k j | r i k | ( 1 - | r i k | ), j = 1, 2, . . .,

$\gamma_{mkj} = \frac{K-1}{K} \frac{ \sum_{x_i \in R_{mkj}} r_{ik} }{\sum_{x_i \in R_{mkj}} |r_{ik}|(1-|r_{ik}|)} , \ \ \ j = 1,2,...,$
bd）更新模型：

fm,k(x)=fm−1,k(x)+∑Jj=1γmkjI(x∈Rmkj) f m , k ( x ) = f m − 1 , k ( x ) + ∑ j = 1 J γ m k j I ( x ∈ R m k j ) $f_{m,k}(x) = f_{m-1,k}(x) +\sum_{j=1}^{J}\gamma_{mkj} I(x \in R_{mkj})$

3）得到最终的强学习器