GBDT原理详解

最新推荐文章于 2023-04-19 19:48:17 发布

Panpan Wei

最新推荐文章于 2023-04-19 19:48:17 发布

阅读量1.4w

点赞数 5

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/jodie123456/article/details/88650288

版权

GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，通过构建多棵决策树并结合它们的预测结果来提升预测准确率。本文详细介绍了GBDT的原理，包括Boosting概念、损失函数、正则化以及如何在Sklearn中实现GBDT。同时，讨论了GBDT的优缺点，如对异常值的鲁棒性，以及并行训练的挑战。

摘要由CSDN通过智能技术生成

1.GBDT算法简介

GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案，我们根据其名字(Gradient Boosting Decision Tree)来展开推导过程。决策树(Decision Tree)我们已经不再陌生，在之前介绍到的机器学习之决策树(C4.5算法)、机器学习之分类与回归树(CART)、机器学习之随机森林中已经多次接触，在此不再赘述。但Boosting和Gradient方法是什么含义呢，又如何跟Decision Tree相结合?首先我们来了解集成学习中的Boosting概念。

1.1集成学习之Boosting

集成学习不是单独的机器学习方法，而是通过构建并结合多个机器学习器来完成任务，集成学习可以用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等方面。其思想是对于训练数据集，我们通过训练若干个个体学习器，通过一定的结合策略形成一个强学习器，以达到博采众长的目的。在机器学习之随机森林中我们已经用到集成学习中的bagging方法，此处我们详细介绍集成学习中的Boosting方法。

从上图可以看出，Boosting算法的工作机制是从训练集用初始权重训练出一个弱学习器1，根据弱学习器的学习误差率来更新训练样本的权重，使得之前弱学习器1中学习误差率高的训练样本点权重变高。然后这些误差率高的点在弱学习器2中得到更高的重视，利用调整权重后的训练集来训练弱学习器2。如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。了解Boosting方法后，我们便可将Boosting方法和Decision Tree相结合便可得到Boosting Decision Tree。

1.2 Boosting Decision Tree