LR(Logistic Regression) & XGBOOST 在 CTR中的应用
此文将持续更新,欢迎指导交流~
立志要成为一位优秀炼丹师的我搞起 CTR 来突然压力山大。数据是最最主要的原因,而且毕竟调得少,慢慢攒点经验吧。
在 CTR 中,最大的两个问题就是:
- 数据不均衡。在投放的大量广告中真正转化的样本数量很少。
- 数据稀疏。每个样本的特征信息都不太全。
LR 和 XGOOST 是 CTR 中常用的两种模型,二者各有优缺点,在 facebook 中使用 XGBOOST(提取特征) + LR(预测) 的方式。GBDT 模型擅长处理连续特征值,而 LR 则擅长处理离散特征值。在 XGBOOST 中,将连续特征值输入 XGBOOST 中,训练好模型以后,得到 K 棵数,每棵树上分别有 n 1 , n 2 , . . . , n K n_1, n_2, ..., n_K n1,n2