机器学习之集成学习（四）GBDT

最新推荐文章于 2024-07-28 16:14:16 发布

ivy_reny

最新推荐文章于 2024-07-28 16:14:16 发布

阅读量2.2k

点赞数 3

分类专栏：机器学习文章标签：机器学习 GBDT

本文链接：https://blog.csdn.net/ivy_reny/article/details/79290745

版权

本文详细介绍了GBDT（Gradient Boosting Decision Tree）算法，从概述、回归树的基础开始，深入到梯度提升的原理，包括前向分步算法、各种损失函数（如Huber损失和分位数损失）以及如何应用于回归和分类问题。最后进行了小结，全面阐述了GBDT的核心概念和技术应用。

摘要由CSDN通过智能技术生成

一、概述

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在提出之初就和SVM一起被认为是泛化能力（generalization）较强的算法。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
GBDT主要由三个概念组成：Regression Decision Tree（即DT）、Gradient Boosting（即GB）、Shrinkage（算法的一个重要演进分支，目前大部分源码都按该版本实现）。理解这三个概念后就能明白GBDT是如何工作。

二、DT（Regression Decision Tree回归树）

提到决策树（DT, Decision Tree），绝大部分人首先想到的就是C4.5分类决策树。但如果一开始就把GBDT中的树想成分类树，那就是一条歪路走到黑，千万不要以为GBDT是很多棵分类树。决策树分为两大类，回归树和分类树。前者用于预测实数值，如明天的温度、用户的年龄、网页的相关程度；后者用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁；后者则无意义，如男+男+女=男还是女？GBDT的核心在于累加所有树的结果作为最终结果，而分类树的结果显然是无法累加的。所以 GBDT中的树都是回归树，不是分类树，这点对理解GBDT相当重要，尽管GBDT调整后也可用于分类，但不代表GBDT的树是分类树。
下面以对人的性别判别/年龄预测为例来说明，每个实例都是一个已知性别/年龄的人，而特征则包括这个人上网的时长、上网的时段、网购所花的金额等。
作为对比，先说分类树。我们知道C4.5分类树在每次分支时，是穷举每一个feature的每一个阈值，找到使得按照feature<=阈值和feature>阈值分成的两个分支的熵最大的feature和阈值，按照该标准分支得到两个新节点，用同样方法继续分支直到所有人都被分入性别唯一的叶子节点，或达到预设的终止条件，若最终叶子节点中的性别不唯一，则以多数人的性别作为该叶子节点的性别。

回归树总体流程也是类似，不过在每个节点（不一定是叶子节点）都会得到一个预测值。以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分支时穷举每一个feature的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化均方差，即每个人的年龄与预测年龄的误差平方和除以N。这很好理解，被预测出错的人数越多，均方差越大，通过最小化均方差能够找到最靠谱的分支依据。分支直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件（如叶子个数上限）。若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄作为该叶子节点的预测年龄。

三、GB（Gradient Boosting梯度提升）

提升树是迭代多棵树来共同决策，怎么实现呢？难道每棵树独立训练一遍，取平均值吗？当然不是，这是投票方法，并不是GBDT，此外只要训练集不变，独立训练三次的三棵树必定完全相同，这样没有意义。GBDT是把所有树的结论累加起来得出最终结论的，其核心在于，每一棵树学的是之前所有树结论之和的残差。比如A的真实年龄是18岁，第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里把A的年龄设为6岁去学习，如果第二棵树真的能把A分到6岁的叶节点，那么累加两棵树的结论就是A的真实年龄；如果第二棵树的结论是5岁，则仍然存在1岁的残差，第三棵树里A的年龄就变成1岁，继续学习。这就是Gradient Boosting的意义。