GBDT + LR模型融合

最新推荐文章于 2024-09-26 09:10:20 发布

hfzd24

最新推荐文章于 2024-09-26 09:10:20 发布

阅读量2.7k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/hfzd24/article/details/78203740

版权

本文探讨了如何利用GBDT（Gradient Boost Decision Tree）挖掘LR（逻辑回归）模型中的特征组合，以弥补人工经验的不足。通过GBDT生成的特征可以作为LR的输入，减少了特征工程的时间成本。文章分析了GBDT与LR融合的现状，提出在CTR预估场景中，针对AD ID类特征的处理方案，并讨论了特征空间的维度和实际应用效果。

摘要由CSDN通过智能技术生成

n）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间[2]，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化，处理上亿条训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而去间接增强LR的非线性学习能力。

LR模型中的特征组合很关键，但又无法直接通过特征笛卡尔积解决，只能依靠人工经验，耗时耗力同时并不一定会带来效果提升。如何自动发现有效的特征、特征组合，弥补人工经验不足，缩短LR特征实验周期，是亟需解决的问题。Facebook 2014年的文章介绍了通过GBDT（Gradient Boost Decision Tree）解决LR的特征组合问题[3]，随后Kaggle竞赛也有实践此思路[4][5]，GBDT与LR融合开始引起了业界关注。

GBDT（Gradient Boost Decision Tree）是一种常用的非线性模型[6][7][8][9]，它基于集成学习中的boosting思想[10]，每次迭代都在减少残差的梯度方向新建立一颗决策树，迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合，决策树的路径可以直接作为LR输入特征使用，省去了人工寻找特征、特征组合的步骤。这种通过GBDT生成LR特征的方式（GBDT+LR），业界已有实践（Facebook，Kaggle-2014），且效果不错，是非常值得尝试的思路。下图1为使用GBDT+LR前后的特征实验示意图，融合前人工寻找有区分性特征（raw feature）、特征组合（cross feature），融合后直接通过黑盒子（Tree模型GBDT）进行特征、特种组合的自动发现。