广告CTR：Decision tree + LR 混合模型

最新推荐文章于 2023-12-26 17:51:23 发布

我很平凡的

最新推荐文章于 2023-12-26 17:51:23 发布

阅读量1.6k

点赞数

分类专栏：机器学习-特征选择文章标签：机器学习 GDBT LR CTR

本文链接：https://blog.csdn.net/banbuduoyujian/article/details/54455953

版权

机器学习-特征选择专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章指出高质量的用户特征、广告特征以及合适的模型是非常重要的，相比较而言，data freshness 、learning rate schema 与data sampling对效果的提升贡献比较小。
1、EXPERIMENTAL SETUP
实验用的评价指标是Normalized Entropy（NE）和 Calibration，关于这两个指标在此不再赘述
2、PREDICTION MODEL STRUCTURE
主要介绍三部分内容。其一，讨论决策树能有效进行特征转换；其二，展现fresher data对模型性能的影响；其三，比较不同的在线学习策略对线性分类器的影响。
（1）Decision tree feature transforms
有两种简单的方法对线性分类器的输入特征进行处理，以提高分类器的性能。其一，连续特征离散化。特征离散化链接该方法从特征处理的角度处理非线性问题，增强线性分类器的识别能力。其二，特征组合。特征组合有多种方法，如笛卡尔积、决策树等。下面说说利用boosted decision tree进行特征组合。
这里写图片描述
把每一棵子树看成一个categorical feature，如果一个实例落入第一棵子树的第二个叶子节点并落入第二棵子树的第一个叶子节点，那么输入给线性分类模型的特征向量为[0,1,0,1,0]。
那么，我们可能有个疑问，为什么要对特征进行上述决策树处理呢？处理之后的新特征对线性分类器会有什么影响呢？接下来我们讨论下这个问题。
在每一次迭代过程中，算法（文中指L2-TreeBoost）都是基于前面子树的残差（residual）学习新的子树。我们可以视基于boosted decision tree的特征转换为一种有监督的特征编码，该特征编码把原始特征转化为二值特征。一次从根节点到叶子节点的遍历可以看做是在某些特征上的一个规则，线性分类器可以为这些规则学习权重，进而完成最终的预测。
（2）Data freshness
由于数据的分布会随着时间的改变而改变，因此数据与模型的时效性会对最终的预测结果产生影响。文章用一天的数据训练模型，用接下来的六天的数据以NE标准去评估模型，发现模型的效果会随着时间间隔的增大而下降。因此，文章提出了一种能有效考虑Data freshness的方案：以一天或者几天的时间训练boosted decision tree，以近乎实时的速度训练线性分类器。
（3）Online linear classifier
这一节主要讲述与在线学习相关的问题。在线学习在本篇博客不在赘述，有兴趣的读者可以搜下相关资料，后续我也会增加这方面的博文。
3.ONLINE DATA JOINER
在生成训练数据时会遇到怎样确定负例问题。时间窗口方法是一种候选方法，该方法假定在一定长度的时间窗口内，如果广告没有被点击，则视为负例。那么时间窗口设置多大才合适？如果时间窗口过大，那么就会造成实时数据生成延迟以及展示存储内存成本增加等问题；如果时间窗口设置过小，那么就会造成点击流失，从而造成点击覆盖度（click coverage）降低等问题。更多的关于时间窗口设置问题请参见文章中提到的引文。
4.CONTAINING MEMORY AND LATENCY
(1)Number of boosting trees
实验结果如图所示：
这里写图片描述
（2）Boosting feature importance
特征的数量对模型效果与计算时间之间的权衡有着影响，为了更好地阐述这种影响，文章首先介绍了Boosting feature importance。Boosting feature importance度量了特征对平方误差减少量的累计贡献。我们知道，在构建树的过程中，使平方误差减少最多的那个节点作为分裂节点。每个特征的Boosting feature importance就是该特征对每个子树的平方误差减少量贡献的总和。实验结果如下图：
这里写图片描述
（3）Historical features
用在Boosting Model中的特征分为上下文特征与历史特征，文中实验表明历史特征比上下文特征对性能提高的贡献要大。但是上下文特征对冷启动问题比较重要。
5.COPING WITH MASSIVE TRAINING DATA
文章介绍了两种处理海量数据的抽样方法，在此不再赘述。
[1]Practical Lessons from Predicting Clicks on Ads atFacebook

我很平凡的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
广告CTR：Decision tree + LR 混合模型

文章指出高质量的用户特征、广告特征以及合适的模型是非常重要的，相比较而言，data freshness 、learning rate schema 与data sampling对效果的提升贡献比较小。 1、EXPERIMENTAL SETUP 实验用的评价指标是Normalized Entropy（NE）和 Calibration，关于这两个指标在此不再赘述 2、PREDICTION
复制链接

扫一扫