点击率预估

最新推荐文章于 2024-07-07 21:36:32 发布

zisang0210

最新推荐文章于 2024-07-07 21:36:32 发布

阅读量1k

点赞数 1

分类专栏：模式识别文章标签： kaggle 点击率预估 GBDT FFM

本文链接：https://blog.csdn.net/qq_24569101/article/details/78781909

版权

模式识别专栏收录该内容

5 篇文章 0 订阅

订阅专栏

kaggle-2014-criteo-3 Idiots

数据集有13维数值型特征和26维hash编码的类别型特征。评价指标是logloss，取得了0.444的成绩。主要使用了GBDT和FFM。

步骤：

为GBDT准备特征。包括13维数值型特征，以及对26维类别型特征做特征编码后出现次数超过4百万次的稀疏特征。
使用GBDT进行训练，30棵深度为7的树。获取30维类别型特征——特征名：特征值=treeNum:LeafNum。
为FFM准备特征。
- 13维数值型特征中，大于2的特征值变为 $(log(x))^2$ ；小于2的特征值变为’SP’+str(value)，其中SP代表special value，value是特征的取值。然后将这13维数值型特征当做类别型特征处理，进行one-hot编码
- 26维类别型特征中，出现次数小于10的特征值变成’less’。例如对于类别型特征C1，第1~3个样本的取值是78c64a1d，第4~7个样本的取值为65a24a1d。做onehot编码后，特征C1-78c64a1d有3个样本取值为1，特征C1-65a24a1d有4个样本取值为1。那么在处理第1~3个样本时，把C1：78c64a1d编码为C1less：1；在处理第4~7个样本时，把C1：65a24a1d编码成C1less:1。
- 30维GBDT特征直接被包含进来
- 对上述三组特征做hash编码，转换成 $10^6$ 维特征
使用FFM进行训练，k=4。对于只在训练集中出现的特征值，对应的权重为0。
平均CTR在训练集中是0.263，在提交的测试集中是0.266，因此对每一个预测值-0.003

为什么可以使用GBDT作为高维特征？

为了增强线性模型的表达能力，可以在特征工程上多下功夫。比如把连续特征（如年龄）离散化，20~25编码成类别1，26~40编码成类别2，然后做onehot编码，送入分类器训练，等价于为每一个类别训练了一个线性分类器，这样原本的线性模型就变成了分段线性的模型，即非线性模型。又比如把两个类别型的特征组合起来，性别+商品类别=新特征，在点击率预估的应用中，为女性+化妆品训练一个权重，肯定比单独为女性训练一个权重，为化妆品训练一个权重的拟合效果更好。因为如果化妆品的权重高了，那么男性+化妆品的点击率肯定也高，这就不大合适了。

GBDT特征可以看作是上述两种特征变换的实现。就一棵树来说，从根节点到叶子节点代表了一条建立在多个特征上的规则，也许是26

为什么可以用hash编码来处理特征？

来源:http://blog.csdn.net/dm_ustc/article/details/45771757

特征维数太高，使用hash trick可以降维。原本n维的特征向量通过hash变成d维，此时肯定有多个原始维度冲突的情形，但实验表明这对问题求解影响不大（参考链接1）。

Simple and scalable response prediction for display advertising 。
Feature Hashing for large scale multitask learning。经典。
Hashing algorithm for large scale learning。介绍最小哈希在特征哈希的作用。
http://www.cnblogs.com/kemaswill/p/3903099.html。
http://hunch.net/~jl/projects/hash_reps/。有微博大牛转发过这条链接。是hash trick应用在机器学习中论文总结。
https://breezedeus.github.io/2014/11/20/breezedeus-feature-hashing.html。结合实际项目谈在multi-task中的应用，总结的挺好。

kaggle-2015-avazu-owenzhang

利用2014年10月21日00时~2014年10月30日23时的数据做训练，预测2014年10月31日的点击率

特征工程

对组合 site/app based features进行平均数编码，构建exp_features特征，特征取app_or_web, app_site_id, as_domain等。

$e x p_f e a t u r e =_ s u m + c r e d k * m e a n _ c n t + c r e d k$ $exp\_feature=\frac{\_sum+cred_k*mean}{\_cnt+cred_k}$
其中 $\frac{\_sum}{\_cnt}$ 是在给定特征值下的点击率， $mean$ 是所有样本的点击率， $cred_k$ 是先验概率的权重。第21天的样本的exp_feature是0，第23天的exp_feature中的 $\frac{\_sum}{\_cnt}$ 及 $mean$ 根据21、22两天的数据计算。代码里提供了last_day_only选项，即只考虑第22天的数据，但是默认是FALSE，可能效果不如考虑全部历史数据好。除此之外，app_id=ecad2386占了绝大多数样本，因此设计特征app_or_web=app_id==’ecad2386’?1:0，先对app_or_web做meanEncode，获得的exp_app_or_web作为mean传入其它特征的平均数编码的计算。
构建exp2_feature特征，其中特征取app_or_web, device_ip, app_site_id等。对于第23天的样本，根据21、22天的样本，对每一个特征计算

$d i f f = (_ s u m + c r e d k * _ m e a n _ m e a n * ( _ c n t + c r e d k )) p o w e r$ $diff=(\frac{\_sum+cred_k*\_mean}{\_mean*(\_cnt+cred_k)})^{power}$
即后验概率与先验概率之比。代码中power=0.25。然后更新先验概率
$_m e a n =_m e a n * d i f f$ $\_mean=\_mean*diff$
直至循环完成。对第23天的样本，exp2_feature=diff_feature。feature_diff是根据21、22天计算的。而根据21、22天，预测第23天的样本被点击的概率，可根据公式

$p r e d =_m e a n 0 \prod f e a t u r e s d i f f_f e a t u r e p r e d = p r e d *_ m e a n 0 m e a n ( p r e d )$ $pred=\_mean0 \prod_{features} diff\_feature\\ pred=pred*\frac{\_mean0}{mean(pred)}$
其中 $\_mean0$ 是21，22天的总点击率。预测的logloss在0.4左右。
将时间特征转换成距离2014年10月21日00时，已过多少小时。根据当前小时的对该device_ip的推荐次数，前一小时的推荐次数、后一小时的推荐次数、今天的推荐次数、昨天的推荐次数、今天的推荐次数-昨天的推荐次数、昨天的点击率构建7个特征。
FM特征。用第21天的数据训练FM，获取第22天各样本被点击的概率；用第21、22天的数据训练FM，获取第23天各样本被点击的概率，以此类推。
GBDT特征。n_trees = 30, max_depth=6, eta=0.3, min_child_weight=50, colsample_bytree=0.5。

分类器

8个RandomForest分类器，取8个分类器输出的均值。n_estimators=32, max_depth=40, min_samples_split=100, min_samples_leaf=10, max_features=8。每次随机抽取30%的样本做训练。
4个xgboost分类器，取4个分类器输出的均值。xgb_n_trees = 300, max_depth=15, eta=0.02, objective=binary:logistic, eval_metric=logloss, min_child_weight=50, subsample=1.0, colsample_bytree=0.5。将样本随机分成4份，每一小份样本训练一个分类器。
4个LogisticRegression分类器，取均值。
4个FM分类器，取均值。
模型融合。y={‘rf’: 0.075, ‘xgb’: 0.175, ‘vw’: 0.225, ‘fm’: 0.525}

微调

pred[site_id=='17d1b03f'] *= 0.13 / pred[site_id=='17d1b03f'].mean()
pred *= 0.161 / pred.mean()

zisang0210

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录