【算法梳理Task2】GBDT算法梳理

最新推荐文章于 2020-10-19 17:13:28 发布

诈胡艺术

最新推荐文章于 2020-10-19 17:13:28 发布

阅读量812

点赞数

本文链接：https://blog.csdn.net/m0_38019841/article/details/85118709

版权

GBDT是一种基于Boosting的集成学习方法，使用CART回归树作为基模型。每轮迭代中，GBDT通过拟合负梯度来寻找最优的决策树，以最小化损失函数。它可以处理连续和离散数据，对异常值有较强鲁棒性，并广泛应用于CTR预测和搜索排序等领域。在sklearn中，GBDT的关键参数包括损失函数、弱学习器数量、学习率、子采样比例等。

摘要由CSDN通过智能技术生成

1.GBDT思想

GBDT是集成学习Boosting家族的成员。弱学习器限定了只能使用CART回归树模型，迭代是思路是：在本轮迭代中找到一个CART回归树模型的弱学习器使得本轮的损失函数最小。即拟合误差。（Adaboost是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。）

GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。

回归树（Regression Decision Tree）

回归树生成算法：（CART）

提升树（Boosting Decision Tree）

提升方法采用加法模型和前向分布算法。以决策树为基函数的提升方法称为提升树。

提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时，每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树，残差的意义如公式：残差 = 真实值 - 预测值。提升树即是整个迭代过程生成的回归树的累加。

回归问题的提升树算法流程：