【读书笔记->推荐系统】02-05 GBDT+LR

02-05 GBDT+LR

思维导图纲要

在这里插入图片描述


FFM模型采用引用特征域的方式增强了模型的特征交叉能力,但是它只能做二阶的特征交叉,更高维度将会产生组合爆炸和计算复杂度过高的问题。而Facebook提出的GBDT+LR组合模型可以有效地处理高维特征组合和筛选的问题。

GBDT+LR组合模型的结构

一句话概括:它利用GBDT自动进行特征筛选的组合,进而生成新的离散特征向量;再把该特征向量当作LR模型输入,预估CTR的模型结构。

在这里插入图片描述

用 GBDT 构建特征工程,利用 LR 预估 CTR 这两步是独立训练的,本节着重讲解利用 GBDT 构建
新的特征向量的过程。

GBDT可以看文末参考文献[1, 2](GBDT 是由多棵回归树组成的树林,后一棵树以前面树林的结果与真实结果的残差为拟合目标。)

GBDT进行特征转换的过程

利用训练集训练好 GBDT 模型之后,就可以利用该模型完成从原始特征向量到新的离散型特征向量的转化。具体过程如下。

一个训练样本在输人 GBDT 的某一子树后,会根据每个节点的规则最终落人某一叶子节点,把该叶子节点置为 1,其他叶子节点置为 0, 所有叶子节点组成的向量即形成了该棵树的特征向量,把 GBDT 所有子树的特征向量连接起来,即形成了后续 LR 模型输人的离散型特征向量。

举例来说,如图 2-17 所示,GBDT 由三棵子树构成,每棵子树有 4 个叶子节点,输人一个训练样本后,其先后落入“子树 1” 的第 3 个叶节点中,那么特征向量就是[0,0,1,0],“子树 2” 的第 1 个叶节点,特征向量为[1,0,0,0],“子树 3”的第 4 个叶节点,特征向量为[0,0,0,1],最后连接所有特征向量,形成最终的特征向量[0,0,1,0,1,0,0,0,0,0,0,1]。

在这里插入图片描述

事实上,决策树的深度决定了特征交叉的阶数。如果决策树的深度为 4 , 则通过 3 次节点分裂,最终的叶节点实际上是进行三阶特征组合后的结果,如此强的特征组合能力显然是 FM 系的模型不具备的。(个人理解:每一次的分裂都是特征选择,例如年龄>24,上网时间>3h,这里有2次分裂,实际上特征交叉(组合)了二阶。)

组合的特征(第1张图中的“转化后的特征”),交给LR使用,训练的时候更新对应的权重。

GBDT+LR 组合模型开启的特征工程新趋势

原来的特征工程:

  1. 利用人工或半人工的特征组合和特征筛选
  2. 通过改造目标函数,改进模型结构,增加特征交叉项的方式增强特征组合能力

GBDT+LR 组合模型的提出,意味着特征工程可以完全交由一个独立的模型来完成,模型的输人可以是原始的特征向量,不必在特征工程上投人过多的人工筛选和模型设计的精力,实现真正的端到端 End to End ) 训练。

广义上讲,深度学习模型通过各类网络结构、Embedding 层等方法完成特征工程的自动化,都是 GBDT+LR 开启的特征工程模型化这一趋势的延续。

参考文献

  1. GBDT(MART) 迭代决策树入门教程 | 简介(GBDT的总体介绍)
  2. 【机器学习算法总结】GBDT(关键可以看3、负梯度拟合部分,我们要在新的一棵回归树上拟合残差-即真实结果与前面树林的结果之差)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值