公众号后台回复“图书“,了解更多号主新书内容
作者:livan
来源:数据python与算法
模型原理
与GBDT+LR模型结缘是刚开始学习推荐系统的过程中,FaceBook一推出这一模型就引起了业内的轰动,因其设计的巧妙以及预测效果的精良,很多公司一度极力推广。尽管GBDT+LR依然存在其问题点,但是在当时数据量没有特别大的情况下,这一模型几乎处于横扫千军的状态。后期模型被不停的优化,于是产出了:
XGBoost/GBDT+LR/FM/FFM
等各种组合方式,阿里也在他的DIN模型中提出并弥补了GBDT+LR的缺点。
但是,无论如何,GBDT+LR的价值不容否认,在介绍这个模型之前,我们先来介绍如下三个问题:
1)为什么要使用集成的决策树模型,而不是单棵的决策树模型?
其一:一棵树的表达能力很弱,不足以表达多个有区分性的特征组合,多棵树的表达能力更强一些。
其二:GBDT是Boosting的经典算法,因其不停的迭代,对数据特征有深度融合的效果,高效组合多个特征,比人工筛选特征组合更高效全面。
2)为什么建树采用GBDT而非RF?
其一:RF也是多棵树,但从效果上有实践证明不如GBDT。
其二:GBDT在迭代过程中,前面的树特征分裂主要体现对多数样本有区分度的特征,后面的树,主要体现的是经过前N颗树,残差仍然较大的少数样本,优先选用在整体上有区分度的特征,再选用针对少数样本有区分度的特征,思路更加合理,这应该也是用GBDT的原因。
3)为什么要将GBDT与LR融合?
GBDT+LR融合是Stacking思想的成功应用,上文中描述了GBDT的优势,但是由于其树状特性,数据敏感度较高,部分数据的调整会引发整体类别的变化,可处理数据量有限,需要一个相对比较钝化的模型。
LR模型被发觉出来,LR模型的并行能力很强,能够处理较大的数据集,同时只能处理一维的特征,学习能力有限,需要大量的特征工程。
这两个模型的优缺点整合后发现,两者刚好可以互补,因此,成就了这一经典。
了解了上面几个问题,我们来看一下二者是怎么融合的吧:
GBDT和LR的融合方案,FaceBook的paper中有个例子:
笔者刚开始接触这个模型的时候总是觉得上面这个图形是错误的,后面逐渐摸索,发现这一图形过于抽象,我们用Boosting的逻辑详细解释一下这个模型:
上图中我们看到GBDT中每一次迭代产生的叶子节点都会被输入到LR中,假如每个弱学习器有10个叶子节点,同时循环60次,则输入到LR中的节点数量即为600个,这600个节点中既涵盖了低阶单维度的特征,也包含高阶复合维度的特征,越往下的学习器,特征融合效果越好。
我们将boosting的结构划归到GBDT项下,得到更直观的图形为:
这一图形是不是更直观一点。
我们用图表的形式表示一下:
◆ ◆ ◆ ◆ ◆
麟哥新书已经在京东上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前京东正在举行100-50活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
点击下方小程序即可进入购买页面:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗点击阅读原文,即可参与京东100-50购书活动