深入理解提升树（Boosting tree）算法

最新推荐文章于 2025-01-13 11:11:14 发布

Microstrong0305

最新推荐文章于 2025-01-13 11:11:14 发布

阅读量4.9k

点赞数 18

分类专栏：机器学习文章标签：机器学习提升树回归树梯度提升树 GBDT

本文链接：https://blog.csdn.net/program_developer/article/details/102150291

版权

本文深入介绍了提升树（Boosting tree）算法，包括Boosting基本概念、前向分步加法模型、提升树模型和算法。重点讲述了回归提升树的示例，详细解释了如何通过最小化损失函数构建加法模型，并给出了逐步拟合残差的实例。此外，还探讨了提升树与梯度提升、GBDT的关系以及一些相关问题的思考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我的个人微信公众号：Microstrong
微信公众号ID：MicrostrongAI
微信公众号介绍： Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容，分享在学习过程中的读书笔记！期待您的关注，欢迎一起学习交流进步！

我的知乎主页： https://www.zhihu.com/people/MicrostrongAI/activities

Github： https://github.com/Microstrong0305

个人博客： https://blog.csdn.net/program_developer

本文首发在我的微信公众号里，地址：https://mp.weixin.qq.com/s/UepQi5Qezdi27MvbUSyLCA，如有公式和图片不清楚，可以在我的微信公众号里阅读。

Boosting基本概念
前向分步加法模型
2.1 加法模型
2.2 前向分步算法
提升树
3.1 提升树模型
3.2 提升树算法
3.2.1 二叉分类提升树
3.2.1 二叉回归提升树
回归提升树示例
完整的示例代码
关于提升树的若干问题思考
总结
Reference

1. Boosting基本概念

提升（Boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

提升方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。

历史上，Kearns和Valiant首先提出了“强可学习（strongly learnable）”和“弱可学习（weakly learnable）”的概念。指出：在概率近似正确（probably approximately correct，PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的，也就是说，在PAC学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。

这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为“强学习算法”。大家知道，发现弱学习算法通常要比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（AdaBoost algorithm）。

Boosting算法的两个核心问题：
（1）在每一轮如何改变训练数据的权值或概率分布？
AdaBoost的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。于是，分类问题被一系列的弱分类器“分而治之”。
（2）如何将弱分类器组合成一个强分类器？
弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。
提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。下面让我们深入理解提升树的具体算法吧！

2. 前向分步加法模型

2.1 加法模型

考虑加法模型（Additive Model）如下：
$\sum_{m=1}^{M}{\beta_{m}b(x;\gamma_{m})}$
其中， $b(x;\gamma_{m})$ 为基函数， $\gamma_{m}$ 为基函数的参数， $\beta_{m}$ 为基函数的系数。显然上式是一个加法模型。

2.2 前向分布算法

在给定训练数据及损失函数 $L (Y, f (x))$ 的条件下，学习加法模型 $f (x)$ 成为经验风险极小化，即损失函数极小化的问题：
$min_{(\beta_{m},\gamma_{m})}\sum_{i=1}^{N}{L(y_{i},\sum_{m=1}^{M}{\beta_{m}b(x_{i};\gamma_{m})})}$
通常这是一个复杂的优化问题。前向分布算法（forward stagewise algorithm）求解这一优化问题的想法是：因为学习的是加法模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近上面要优化的目标函数，那么就可以简化优化的复杂度。
具体地，每步只需优化如下损失函数：
$min_{(\beta,\gamma)}\sum_{i=1}^{N}{L(y_{i},\beta b(x_{i};\gamma))}$
给定训练数据集 $=\left\{ (x_{1}, y_{1}), (x_{2}, y_{2}),...,(x_{N}, y_{N})\right\},x_{i}\in X\subseteq R^{n},y_{i}\in Y=\left\{ -1, +1 \right\}$ 。损失函数 $L (Y, f (x))$ 和基函数的集合 $\left\{ b(X;\gamma) \right\}$ ，学习加法模型 $f (x)$ 的前向分步算法如下：
前向分步算法步骤如下：
输入： 训练数据集 $=\left\{ (x_{1}, y_{1}), (x_{2}, y_{2}),...,(x_{N}, y_{N})\right\}$ ；损失函数 $L (Y, f (x))$ ；基函数集 $\left\{ b(X;\gamma) \right\}$ ；
输出： 加法模型 $f (x)$ 。
（1）初始化 $f_{0}(x)=0$
（2）对 $m = 1, 2, . . ., M$
（a）极小化损失函数：
$(\beta_{m},\gamma_{m})=argmin_{\beta,\gamma}\sum_{i=1}^{N}{L(y_{i},f_{m-1}(x_{i})+\beta b(x_{i};\gamma))}$
得到参数 $\beta_{m},\gamma_{m}$
（b）更新：
$f_{m}(x) = f_{m-1}(x)+\beta_{m}b(x;\gamma_{m})$
（3）得到加法模型：
$f_{M}(x)=\sum_{m=1}^{M}{\beta_{m}b(x;\gamma_{m})}$

最低0.47元/天解锁文章