【机器学习】：梯度提升决策树（GBDT）

最新推荐文章于 2024-09-23 12:50:51 发布

Geeksongs

最新推荐文章于 2024-09-23 12:50:51 发布

阅读量658

点赞数

文章标签：算法决策树 python 神经网络机器学习

本文链接：https://blog.csdn.net/Geeksongs/article/details/120663255

版权

GBDT是一种迭代的决策树算法，由多棵回归树构成，适用于回归和分类任务。每棵树的目标是拟合前一棵树的残差，从而不断优化模型。文中详细介绍了回归树、提升树的概念，并对GBDT的工作原理进行了深入探讨，包括其与平方误差、残差的关系以及如何通过负梯度进行优化。此外，还讨论了GBDT相较于其他决策树模型的参数设置，如树的深度，并解释了为何GBDT能在较浅的深度下达到高精度。

摘要由CSDN通过智能技术生成

综述

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
GBDT中的树是回归树(不是分类树)，GBDT用来做回归预测，调整后也可以用于分类。
GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中，Facebook使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高 CTR预估(Click-Through Rate Prediction)的准确性(详见参考文献5、6)；GBDT在淘宝的搜索及预测业务上也发挥了重要作用(详见参考文献7)。

一、Regression Decision Tree：回归树

回归树总体流程类似于分类树，区别在于，回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化平方误差。也就是被预测出错的人数越多，错的越离谱，平方误差就越大，通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)，若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。(引用自一篇博客，详见参考文献3)