GBDT的原理和应用

最新推荐文章于 2024-09-11 10:01:43 发布

chenxy02

最新推荐文章于 2024-09-11 10:01:43 发布

阅读量295

点赞数

文章标签：机器学习算法神经网络

原文链接：https://zhuanlan.zhihu.com/p/30339807

版权

本文介绍了GBDT（梯度提升决策树）原理及其在过拟合问题上的解决方案，通过与LR（逻辑回归）结合，形成GBDT+LR模型。重点讲解了特征生成和组合过程，以及XGBoost在实践中的应用，如模型训练、部署和特征变换。

摘要由CSDN通过智能技术生成

参考地址：GBDT的原理和应用 - 知乎

一直以来，GBDT-LR凭借着良好的表达能力和可解释性成为各大厂最重要的模型之一。

概述

DT-Decision Tree决策树，GB是Gradient Boosting，是一种学习策略，GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。模型的结果是一组回归分类树组合（CART Tree Ensemble）：T1……Tk。其中Tj学习的是之前j-1棵树预测结果的残差，这种思想就像准备考试前复习，先做一遍习题册，然后把做错的题目挑出来，在做一次，然后把做错的题目挑出来在做一次，经过反复多轮训练，取得最好的成绩。

而模型最后的输出，是一个样本在各个树中输出的结果的和：

假设我们要预测一个人是否会喜欢电脑游戏，特征包括年龄，性别是否为男，是否每天使用电脑。标记（label）为是否喜欢电脑游戏，假设训练出如下模型

该模型由两棵树组成，T1使用age<15和is male作为内节点，叶子节点是输出的分数。T2使用是否每日使用电脑作为根节点。假设测试样本如下：

样本在两棵树中所在的叶节点如下：

最后对某样本累加它所在的叶子节点的输出值，例如：

GBDT ＋ LR

单独的使用GBDT模型，容易出现过拟合，在实际应用中往往使用GBDT+LR的方式做模型训练，算法更多细节可以参考 [Practical Lessons from Predicting Clicks on Ads at Facebook]。本文只介绍结论性的做法。

首先根据样本训练出GBDT树，对于每个叶子节点，回溯到根节点都可以得到一组组合特征，所以用叶子节点的标号可以代表一个新组合特征。结合上面的图，用一个样本为例，直观的表达如下：

其中 0号组合特征的含义是：ageLessThan15AndIsMale，该样本取值 0
其中 1号组合特征的含义是：ageLessThan15AndIsNotMale，该样本取值 1
其中 2号组合特征的含义是：ageLargerOrEqualThan15，该样本取值 0
其中 3号组合特征的含义是：useComputerDaily，该样本取值 0
其中 4号组合特征的含义是：notUseComputerDaily，该样本取值 1

这部分特征是GBDT生成的组合特征，再结合LR固有的稀疏特征，就组成了GBDT+LR模型。生成样本向量阶段，样本首先过GBDT模型，生成组合特征部分的输入向量，再结合固有的稀疏特征向量，组成新特征向量，示例如下：

在该例子中，第一行绿颜色是通过 GBDT 模型生成的特征向量，每个值都代表一个叶子节点的输出（样本在某棵树只在一个叶子节点有输出），第二行表示 LR 模型的稀疏特征向量，第三行表示把两部分特征向量拼接在一起，组成一个最终的特征向量，并使用该向量训练LR模型。

实践

XGBoost是GBDT最广为人知的一个实现。通过使用一定程度的近似，使得求解变得更高效。同时支持分布式和 GPU 优化，有着广泛的使用。在实践中，算法工程师使用 Spark 或者Python 的 XGBoost 库训练模型，并保存成文件，线上根据不同的语言采用相应的依赖包，将模型导入，执行决策。Java 中使用 xgboost4j 导入模型，完成特征变换后，调用 predict 方法，就可以得到当前样本的预测值。

需要注意的是，xgboost4j 需要链接到本地库，需要自己编译并打包。首先在本地编译 xgboost4j，生成平台相关的本地库文件，例如 linux 下生的 libxgboost4j.so。然后把这个文件连同xgboost4j 的源代码一起，发布成一个新的工程，供线上依赖。

chenxy02

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GBDT的原理和应用

参考地址：GBDT的原理和应用 - 知乎一直以来，GBDT-LR凭借着良好的表达能力和可解释性成为各大厂最重要的模型之一。概述DT-DecisionTree决策树，GB是GradientBoosting，是一种学习策略，GBDT的含义就是用GradientBoosting的策略训练出来的DT模型。模型的结果是一组回归分类树组合（CARTTree Ensemble）：T1……Tk。其中Tj学习的是之前j-1棵树预测结果的残差，这种思想就像准备考试前复习，先做一遍习题册，然后把做错的题目挑出...
复制链接

扫一扫