算法梳理2：GBDT

最新推荐文章于 2021-07-30 18:57:17 发布

HarperYeung

最新推荐文章于 2021-07-30 18:57:17 发布

阅读量646

点赞数

本文链接：https://blog.csdn.net/harperyeung/article/details/85954467

版权

GBDT是一种迭代的决策树算法，用于回归和分类任务。它通过前向分步算法逐步优化损失函数，每次迭代拟合负梯度方向。GBDT使用CART回归树作为弱学习器，并可通过正则化防止过拟合。损失函数的选择影响模型的优化，如平方损失和指数损失。分类时，GBDT可用对数似然损失函数。在sklearn中，GBDT的参数如n_estimators（迭代次数）、learning_rate（步长）和subsample（子采样比例）需配合调整。GBDT广泛应用于特征工程和评估特征重要性。

摘要由CSDN通过智能技术生成

1. GBDT概述

GBDT是集成学习Boosting家族的成员，有两部分组成: gradient boosting，decision tree。
GBDT是迭代，使用了前向分步算法，但是弱学习器限定了只能使用CART回归树模型，迭代思路：假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失函数L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。

回归树总体流程类似于分类树，区别在于，回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化平方误差。也就是被预测出错的人数越多，错的越离谱，平方误差就越大，通过最小化平方误差能够找到最可靠的分枝依据。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
业界中，Facebook使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高 CTR预估（Click-Through Rate Prediction）的准确性；GBDT在淘宝的搜索及预测业务上也发挥了重要作用。
boosting类的算法，都要解决这4个问题：

如何计算学习误差率e?
如何得到弱学习器权重系数α?
如何更新样本权重D?
使用何种结合策略？

2. 前向分步算法

求解思路

根据学习的加法模型(additive model)
在这里插入图片描述
在给定训练数据及损失函数L( y, f(x) )的条件下，学习加法模型 f(x)成为经验风险极小化即损失函数极小化问题：

如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，具体，每步只需优化如下损失函数：