集成学习之提升树(DB、GBDT)

最新推荐文章于 2022-04-06 15:38:36 发布

code_of_yang

最新推荐文章于 2022-04-06 15:38:36 发布

阅读量1.2k

点赞数 5

分类专栏：集成学习

本文链接：https://blog.csdn.net/qq_45892431/article/details/119247163

版权

集成学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细介绍了提升树模型，包括DB和DBGT算法。DB主要应用于回归问题，通过前向分步学习决策树；DBGT则解决一般决策问题，利用负梯度拟合回归树。文章涵盖了数据集引入、前向分步、树的表示、残差计算和最终模型构建等关键步骤。

摘要由CSDN通过智能技术生成

前言

上一讲简单介绍了集成学习以及Boost系列算法的思想，这一篇我们介绍统计学习性能最好之一的提升树。

一、提升树的模型

1.1 什么是提升树

提升方法采用的是加法模型（即多个基函数线性结合）与前向分步算法（每次只学习一个基函数及系数，逐步逼近最优解）。而以决策树为基函数的提升方法成为提升树。

1.2 提升树模型

提升树模型表示为决策树的加法模型
$\begin{aligned} f_M(x) = \displaystyle\sum_{m=1}^{M}T(x; \theta_m)\tag{1} \end{aligned}$

其中， $\theta_m)$ 表示决策树， $\theta_m$ 为决策树参数，M为树的个数。

二、提升树算法(DB)

1. 引入数据集

假设给定一个训练数据集T = {( $x_1, y_1), (x_2, y_2),...,(x_N, y_N)$ }，其中，每个样本点由实例和标签组成。实例 $x_i \in$ X $\subseteq$ $R^n$ ， $y_i$ $\in$ Y $\subseteq$ R，X是实例空间，Y是输出空间。

2. 前向分步算法

提升树使用前向分步算法。首先确定初始提升树
$\begin{aligned} f_0(x)= 0\tag{1} \end{aligned}$
在前向分步算法的第m步，给定当前模型 $f_{m-1}(x)$ ，知第m步模型
$\begin{aligned} f_m(x) = f_{m-1}(x) + T(x; \theta_m)\tag{2} \end{aligned}$
需求解
$\begin{aligned} \hat{\theta_m} = arg \underset{\theta_m}{min}\displaystyle\sum_{i=1}^{N}L(y_i,f_{m-1}(x_i) + T(x_i;\theta_m))\tag{3} \end{aligned}$
得到 $\hat{\theta_m}$ ，即第m棵树的参数，根据参数构建决策树。

3. 树的表示

如果将输入空间X划分为J个互不相交的区域 $R_1，R_2，...，R_J$ ，并且在每个区域上确定出常量 $c_j$ ，那么树可表示为：
$\begin{aligned} T(x_i;\theta) = \displaystyle\sum_{j=1}^{J}c_jI(x \in R_j)\tag{4} \end{aligned}$

其中，参数 $\theta = \{(R_1, c_1), (R_2, c_2), ..., (R_J, c_J)\}$ 表示树的区域划分和各区域上的常数（即上面求的参数），J是回归树的复杂度也即叶结点个数。

4. 残差

采用平方误差损失函数，即
$\begin{aligned} L(y, f(x)) = (y - f(x))^2\tag{5} \end{aligned}$
代入
$\begin{aligned} L(y_i, f_{m-1}(x_i) + T(x_i;\theta_m))) &= [y_i - f_{m-1}(x) - T(x; \theta_m)]^2\\ &= [r_{mi} - T(x; \theta_m)]^2\tag{6} \end{aligned}$
这里， $r_{mi} = y_i - f_{m-1}(x)$

5. 最终的提升树

从第二轮开始，用残差拟合训练数据，不断重复步骤2、3、4，直到满足误差要求，得到最终的提升树。
$\begin{aligned} f_M(x)= \displaystyle\sum_{m=1}^{M}T(x;\theta_m)\tag{7} \end{aligned}$

三、提升树算法(DBGT)

1.GBDT的由来

因为损失函数不同，提升算法能解决的问题也不同，一般来说，平方误差损失函数主要解决回归问题，指数损失函数解决分类问题，一般损失函数解决一般决策问题。对于平方函数和指数函数，优化很简单，但是对于一般的损失函数，优化并不容易。因此，Freidman提出了DBGT算法，用最速下降法的近似方法，利用损失函数的负梯度在当前模型的值作为残差近似值来拟合一棵回归树。

2. 算法

2.1 引入数据集

给定一个训练数据集T = {( $x_1, y_1), (x_2, y_2),...,(x_N, y_N)$ }，其中， $x_i \in$ X $\subseteq$ $R^n$ ， $y_i$ $\in$ Y $\subseteq$ R，X是实例空间，Y是输出空间，损失函数 $L (y, f (x))$

2.2 初始化

$\begin{aligned} f_0(x) = arg \underset{c}{min}\sum_{i = 1}^{N}L(y_i,c)\tag{8} \end{aligned}$

估计是损失函数极小化的常数值，它是只有一个根结点的树

2.3 对m = 1，2，…，M

对 i = 1，2，…，N，计算
$\begin{aligned} r_{mi} = -[\frac{\partial L(y_i, f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m-1}(x)}\tag{9} \end{aligned}$

计算损失函数的负梯度在当前模型的值，将它作为残差估计值

对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶结点区域 $R_{mj}，j = 1，2，...，J$

以拟合残差近似值，求该区域

对j = 1，2，…，J，计算
$\begin{aligned} c_{mj} = arg \underset{c}{min}\sum_{x_i \in R_{mj}}{L(y_i, f_{m-1}(x_i) + c)}\tag{10} \end{aligned}$

线性搜索估计叶结点区域的值，使损失函数极小化

更新
$\begin{aligned} f_m(x) = f_{m-1}(x) + \sum_{j = 1}^{J}c_{mj}I(x \in R_{mj}\tag{11} \end{aligned}$

2.4输出最终回归树

$\begin{aligned} \hat{f(x)} = f_M(x) = \sum_{m=1}^{M}\sum_{j = 1}^{J}c_{mj}I(x \in R_{mj})\tag{12} \end{aligned}$

结论

提升树的整体思路都是一样的，采用加法模型和前向分步算法。一般来说，平方误差损失函数主要解决回归问题，指数损失函数解决分类问题，一般损失函数解决一般决策问题。这里主要介绍了适合回归问题的DB和适合一般决策问题的GBDT，两者区别是损失函数的不同，前者的平方误差损失函数就是残差，而后者是求损失函数的负梯度作为残差估计，最终都是拟合回归树，采用前向分步得到最终的提升树。