GBDT+LR
一、GBDT+LR是什么?
1.GBDT
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成(但GBDT是回归树,不是分类决策树),所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。
2.LR
逻辑回归模型(Logistic regression,LR),又称对数几率模型。
- 逻辑: 逻辑
S
i
g
m
o
i
d
Sigmoid
Sigmoid函数。
f
(
x
)
=
L
1
+
e
−
k
(
x
−
x
0
)
f(x)=\frac{L}{1+e^{-k(x-x_0)}}
f(x)=1+e−k(x−x0)L
其中 x 0 x_0 x0:曲线上的一个 x x x值。
L L L:曲线的最大值
k k k:去县上logistic增长率或陡度
当 x 0 = 0 , L = 1 , k = 1 x_0=0,L=1,k=1 x0=0,L=1,k=1,即标准逻辑Sigmoid函数。 - 回归: 回归分析着重在寻求变量之间近似的函数关系。
由于逻辑回归模型简单,可解释强,易实现,广泛应用于机器学习、推荐系统、计算广告等领域。
3.GBDT+LR模型
该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模
型的输入, 来产生最后的预测结果, 该模型能够综合利用用户、物品和上下文等多种不同的特征, 生成较为全面的推荐结果, 在CTR点击率预估场景下使用较为广泛。
二、逻辑回归
相比于协同过滤和矩阵分解利用用户的物品“相似度”进行推荐, 逻辑回归模型将问题看成了一个分类问题, 通过预测正样本的概率对物品进行排序。这里的正样本可以是用户“点击”了某个商品或者“观看”了某个视频, 均是推荐系统希望用户产生的“正反馈”行为, 因此逻辑回归模型将推荐问题转化成了一个点击率预估问题。而点击率预测就是一个典型的二分类, 正好适合逻辑回归进行处理, 那么逻辑回归是如何做推荐的呢? 过程如下:
- 将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转成数值型向量
- 确定逻辑回归的优化目标,比如把点击率预测转换成二分类问题, 这样就可以得到分类问题常用的损失作为目标, 训练模型
- 在预测的时候, 将特征向量输入模型产生预测, 得到用户“点击”物品的概率
- 利用点击概率对候选物品排序, 得到推荐列表
推断过程用下图1来表示:
所以如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题, 而GBDT模型, 正好可以自动发现特征并进行有效组合。
三、GBDT模型
GBDT是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的误差来达到将数据分类或者回归的算法, 其训练过程如下:
四、GBDT+LR模型
模型结构