GBDT+LR

本文介绍了在预测广告点击中的实践,通过GBDT进行特征转换,特别是连续特征离散化和构造组合特征,然后使用LR对GBDT的输出进行训练。重点讨论了数据新鲜度、特征重要性、负样本下采样策略以及如何将负采样后的CTR转换回原始空间。此外,还提出了连续特征离散化的方法和LR权重的数量问题,以及归一化交叉熵计算的思考。
摘要由CSDN通过智能技术生成

0. 基础准备

论文: Practical Lessons from Predicting Clicks on Ads at Facebook
参考资料:
https://github.com/aragorn/home/wiki/Study-:-Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook

https://zhuanlan.zhihu.com/p/34770123

https://blog.csdn.net/Dby_freedom/article/details/84971658

把GBDT看作特征的转换器,从树根到叶子的路径,可以理解为特征的规则。
把转换后的特征向量输入到线性分类器中,本质上是学习这些规则集合的权重.

1.论文阅读

1.1. GBDT特征转换 (连续特征离散化,构造组合特征)
1.2. LR对于GBDT的输出one-hot特征做权重训练
1.3 评估data fressnes
1.4 评估用户历史特征(特征重要性排序topK 75%) 和 上下文特征
NOTE: 少量的特征贡献了大部分的模型影响力
NOTE: 上下文特征对于冷启动问题很有用
1.5 negative down sampling

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值