gradient boosting梯度提升决策树

最新推荐文章于 2023-11-29 09:51:47 发布

hustqb

最新推荐文章于 2023-11-29 09:51:47 发布

阅读量904

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

21 篇文章 19 订阅

订阅专栏

声明：
1. 转自《统计学习方法》

gradient boosting

提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步的优化都很简单。但对于一般损失函数而言，往往每一步的优化并不那么容易。针对这一问题，Freidman提出了gradient boosting算法。这是利用最速下降法，其关键是利用损失函数的负梯度在当前模型的值：

- [\partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$-[\frac {\partial L(y_i, f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m-1}(x)}$

作为回归问题提升树算法中的残差的近似值，训练一个回归树。

平方损失和指数损失下的提升树

针对不同问题的提升树学习算法，其主要区别在于使用的损失函数不同。包括平方误差损失函数的回归问题，用指数损失函数的分类问题，以及用一般损失函数的一般决策问题。

损失函数	算法
平方误差损失	boosting tree
指数损失函数	Adaboost
一般损失函数	gradient boosting desicion tree

Adaboost

前向分步算法是AdaBoost的另一种解释。
定理
AdaBoost算法是前向分步加法算法的特例。这时，模型是有基本分类器组成的加法模型，损失函数是指数函数。
证明
前向分步算法是加法模型，当基函数为基本分类器时，该加法模型等价于AdaBoost的最终分类器：

f (x) = \sum m = 1 M α m G m (x)

$f(x) = \sum_{m=1}^M \alpha_m G_m(x)$

了解前向分步算法的可以跳过下面两小节

前向分步算法

考虑加法模型(additive model)

f (x) = \sum m = 1 M β m b (x; γ m)

$f(x) = \sum_{m=1}^M \beta_mb(x; \gamma_m)$ 其中，

b(x;γm) b ( x ; γ m ) $b(x; \gamma_m)$ 是基函数。

在给定训练数据及损失函数 $L(y, f(x))$ 的条件下，学习加法模型 $f(x)$ 成为经验风险极小化即损失函数极小化问题：

m i n β m, γ m \sum i = 1 N L (y i, \sum m = 1 M β m b (x; γ m))

$min_{\beta_m, \gamma _m} \sum_{i = 1}^N L(y_i, \sum_{m=1}^M \beta_mb(x; \gamma_m))$

通常这是一个复杂的优化问题。前向分步算法(forward stagewise algorithm)求解这一优化问题的想法是：因为学习的是加法模型，如果能从前往后，每一步只学习一个基函数及其系数，逐步逼近优化目标，那么就能简化优化的复杂度。具体地，每步只需要优化如下损失函数：

m i n β m, γ m \sum i = 1 N L (y i, β m b (x; γ m))

$min_{\beta_m, \gamma _m} \sum_{i = 1}^N L(y_i, \beta_mb(x; \gamma_m))$

算法流程：

初始化决策函数 $f_0(x) = 0$
对所有的基函数， m=1,2,3,...
1. 极小化损失函数 $β m, γ m = a r g m i n β m, γ m \sum i = 1 N L (y i, f m - 1 - β m b (x; γ m))$ $\beta_m, \gamma _m = argmin_{ \beta _m, \gamma _m} \sum_{i = 1}^N L(y_i, f_{m-1} - \beta_mb(x; \gamma_m))$ 即，每一步都要计算下一步的参数值，或者说每一个m-1基函数的参数计算完成，都要基于所有 $1, 2, ..., m-1$ 基函数计算m基函数。
2. 更新决策函数 $f_m(x) = f_{m-1}(x) + \beta_m b(x;\gamma_m)$
最后得到加法模型： $f (x) = f M (x) = \sum m = 1 M β m b (x; γ m)$ $f(x) = f_M(x) = \sum_{m = 1}^M \beta_m b(x;\gamma_m)$

这样，前向分步算法将同时求解从 $m=1$ 到 $M$ 所有参数 $\beta_m, \gamma _m$ 的优化问题简化为逐次求解各个 $\beta_m, \gamma _m$ 的优化问题。

在前向分步算法中损失函数表示为

L(y,f(x))，首先可以想到如何得到损失函数到底是什么。 L ( y , f ( x ) ) ，首先可以想到如何得到损失函数到底是什么。 $L(y, f(x))，首先可以想到如何得到损失函数到底是什么。$

AdaBoost的损失函数是指数函数

前向分步算法逐一学习基函数，这一过程与AdaBoost算法注意学习基本分类器的过程一致。下面证明前向分步算法的损失函数是指数损失函数(exponential loss function): $L(x, f(x)) = exp[-yf(x)]$ 时，其学习的具体操作等价于AdaBoost算法学习的具体算法。

假设经过 $m-1$ 轮迭代，前向分步算法已经到 $f_{m-1}(x)$ ：

f m - 1 (x) = f m - 2 (x) + α m - 1 G m - 1 (x) = α 1 G 1 (x) + α 2 G 2 (x) + . . . + α m - 1 G m - 1 (x)

$f_{m-1}(x) = f_{m-2}(x) + \alpha _{m-1}G_{m-1}(x) \\ = \alpha_1 G_1(x) + \alpha_2 G_2(x) + ... + \alpha_{m-1}G_{m-1}(x)$

在第 $m$ 轮迭代得到 $\alpha_m, G_m(x), f_m(x)$ ：

f m (x) = f m - 1 (x) + α m G m (x)

$f_m(x)= f_{m-1}(x) +\alpha_m G_m(x)$

下面是前向分步算法极小化损失函数的步骤：

(α m, G m (x)) = a r g m i n α m, G m \sum i = 1 N e x p [- y i (f m - 1 (x i) + α m G m (x i)] = a r g m i n α m, G m \sum i = 1 N e x p [- y i (f m - 1 (x i)] \cdot e x p [α m G m (x i)] = a r g m i n α m, G m \sum i = 1 N w ¯ m i \cdot e x p [α m G m (x i)]

$(\alpha_m, G_m(x)) = argmin_{\alpha_m, G_m} \sum_{i=1}^Nexp[-y_i (f_{m-1}(x_i) + \alpha_m G_m(x_i)] \\ = argmin_{\alpha_m, G_m} \sum_{i=1}^Nexp[-y_i (f_{m-1}(x_i)] \cdot exp[ \alpha_m G_m(x_i)] \\ = argmin_{\alpha_m, G_m} \sum_{i=1}^N \bar w_{mi}\cdot exp[ \alpha_m G_m(x_i)]$

其中， $\bar w_{mi} = exp[-y_i (f_{m-1}(x_i)]$ ，既不依赖于 $\alpha_m$ 也不依赖于 $G_m$ ，所以与最小化无关。但是在最小化完成之后，需要更对它进行更新。

如果证得上式计算的 $\alpha_m^*,G_m^*,$ 就是Adaboost算法中的 $\alpha_m,G_m$ ，则说明AdaBoost的损失函数就是指数函数。
此处省略证明过程，最终得到：

α * m = 1 2 l o g 1 - e m e m = α m

$\alpha_m^* = \frac 12 log \frac {1-e_m}{e_m} = \alpha_m$

再由 $\bar w_{mi} = exp[-y_i (f_{m-1}(x_i)]$ 得 $\bar w_{m+1，i} = \bar w_{mi} \cdot exp[-y_i \alpha_mG_m(x)]$ .这与AdaBoost的样本权值更新相似，只差一个规范化因子。

Boosting Tree

提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; θ m)

$f_M(x) = \sum_{m=1}^M T(x;\theta_m)$

与Adaboost的加法模型不同的是，没有加权系数。

boosting Tree采用前向分步算法。首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是

f m (x) = f m - 1 (x) + T (x; θ m)

$f_m(x) = f_{m-1}(x) + T(x;\theta_m)$
每一步的损失函数是：

θ^m = a r g m i n θ \sum i = 1 N L (y i, f m - 1 (x) + T (x; θ m))

$\hat \theta_m = argmin_\theta \sum_{i=1}^N L(y_i, f_{m-1}(x) + T(x;\theta_m))$
针对不同问题的提升树学习算法，其主要区别在于使用的损失函数不同：

回归问题——平方误差损失函数
分类问题——指数损失函数
一般决策问题——一般损失函数

对于二分类问题，提升树算法是Adaboost的特例，此时的Adaboost的基本分类器是二分类树。对于回归问题，采用平方误差损失函数，学习算法是拟合残差项(类比前向分步算法)。

初始化决策函数 $f_0(x) = 0$
对所有的基函数， m=1,2,3,...
1. 计算残差 $r m i = y i - f m - 1 (x i), i = 1, 2, . . ., N$ $r_{mi} = y_i - f_{m-1}(x_i), i=1, 2, ..., N$
2. 极小化残差项，学习一个回归树，得到 $T(x;\theta_m)$
3. 更新决策函数 $f_m(x) = f_{m-1}(x) + T(x;\theta_m)$
最后得到加法模型： $f (x) = f M (x) = \sum m = 1 M T (x; θ m)$ $f(x) = f_M(x) = \sum_{m = 1}^M T(x;\theta_m)$

GBDT的算法流程

初始化决策函数 $f_0(x) = argmin_c \sum_{i=1}^N L(y_i, c)$
对所有的基函数， m=1,2,3,...
1. 计算梯度，用梯度近似残差项 $r m i = - [\partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)$ $r_{mi} = -[\frac {\partial L(y_i, f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m-1}(x)}$
2. 对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶节点区域 $R_{mj}$
3. 对所有的叶节点区域，极小化损失函数： $c m j = a r g m i n c \sum x i \in R m j L (y i, f m - 1 (x i) + c)$ $c_{mj} = argmin_c \sum_{x_i \in R_{mj}} L(y_i, f_{m-1}(x_i) + c)$
4. 更新决策函数 $f_m(x) = f_{m-1}(x) + \sum_{j=1}^J c_{mj}I(x \in R_{mj})$
最后得到加法模型： $f (x) = f M (x) = \sum m = 1 M \sum j = 1 J c m j I (x \in R m j)$ $f(x) = f_M(x) = \sum_{m = 1}^M \sum_{j=1}^J c_{mj} I(x \in R_{mj})$

算法第一步初始化，估计使算是函数极小化的常数值，它是只有一个根节点的树。第2.1步计算损失函数的负梯度在当前模型的值，将它作为残差项的估计。第2.2步估计回归树叶结点区域，以拟合残差项的近似值。第2.3步利用线性搜索估计叶结点区域的值，使损失函数极小化。第2.4步更新回归树。第3步得到输出的最终模型 $\hat f(x)$