推荐系统与深度学习（十四）——GBDT+LR模型原理

最新推荐文章于 2024-07-06 22:15:29 发布

IT农民工1

最新推荐文章于 2024-07-06 22:15:29 发布

阅读量1.1k

点赞数

文章标签：人工智能数据分析 adb 编程语言知识图谱

原文链接：https://item.jd.com/12686131.html

版权

公众号后台回复“图书“，了解更多号主新书内容

作者：livan

来源：数据python与算法

模型原理

与GBDT+LR模型结缘是刚开始学习推荐系统的过程中，FaceBook一推出这一模型就引起了业内的轰动，因其设计的巧妙以及预测效果的精良，很多公司一度极力推广。尽管GBDT+LR依然存在其问题点，但是在当时数据量没有特别大的情况下，这一模型几乎处于横扫千军的状态。后期模型被不停的优化，于是产出了：

XGBoost/GBDT+LR/FM/FFM

等各种组合方式，阿里也在他的DIN模型中提出并弥补了GBDT+LR的缺点。

但是，无论如何，GBDT+LR的价值不容否认，在介绍这个模型之前，我们先来介绍如下三个问题：

1）为什么要使用集成的决策树模型，而不是单棵的决策树模型？

其一：一棵树的表达能力很弱，不足以表达多个有区分性的特征组合，多棵树的表达能力更强一些。

其二：GBDT是Boosting的经典算法，因其不停的迭代，对数据特征有深度融合的效果，高效组合多个特征，比人工筛选特征组合更高效全面。

2）为什么建树采用GBDT而非RF？

其一：RF也是多棵树，但从效果上有实践证明不如GBDT。

其二：GBDT在迭代过程中，前面的树特征分裂主要体现对多数样本有区分度的特征，后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本，优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。

3）为什么要将GBDT与LR融合？

GBDT+LR融合是Stacking思想的成功应用，上文中描述了GBDT的优势，但是由于其树状特性，数据敏感度较高，部分数据的调整会引发整体类别的变化，可处理数据量有限，需要一个相对比较钝化的模型。

LR模型被发觉出来，LR模型的并行能力很强，能够处理较大的数据集，同时只能处理一维的特征，学习能力有限，需要大量的特征工程。

这两个模型的优缺点整合后发现，两者刚好可以互补，因此，成就了这一经典。

了解了上面几个问题，我们来看一下二者是怎么融合的吧：

GBDT和LR的融合方案，FaceBook的paper中有个例子：

笔者刚开始接触这个模型的时候总是觉得上面这个图形是错误的，后面逐渐摸索，发现这一图形过于抽象，我们用Boosting的逻辑详细解释一下这个模型：

上图中我们看到GBDT中每一次迭代产生的叶子节点都会被输入到LR中，假如每个弱学习器有10个叶子节点，同时循环60次，则输入到LR中的节点数量即为600个，这600个节点中既涵盖了低阶单维度的特征，也包含高阶复合维度的特征，越往下的学习器，特征融合效果越好。

我们将boosting的结构划归到GBDT项下，得到更直观的图形为：

这一图形是不是更直观一点。

我们用图表的形式表示一下：

◆ ◆ ◆  ◆ ◆
麟哥新书已经在京东上架了，我写了本书：《拿下Offer-数据分析师求职面试指南》，目前京东正在举行100-50活动，大家可以用相当于原价5折的预购价格购买，还是非常划算的：

点击下方小程序即可进入购买页面：

数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。

管理员二维码：


猜你喜欢

● 麟哥拼了！！！亲自出镜推荐自己新书《数据分析师求职面试指南》● 厉害了！麟哥新书登顶京东销量排行榜！● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主！● 你相信逛B站也能学编程吗点击阅读原文，即可参与京东100-50购书活动