IJCAI-18阿里妈妈搜索广告转化预测参赛总结

最新推荐文章于 2023-06-13 17:16:36 发布

Biglethz

最新推荐文章于 2023-06-13 17:16:36 发布

阅读量1.6k

点赞数

分类专栏： CTR

本文链接：https://blog.csdn.net/Biglethz/article/details/80344841

版权

1.概述

花了两个月时间参加了IJCAI-18 阿里妈妈搜索广告转化预测比赛，对于一个刚接触ML的小白，第一次参加天池的比赛，十分有幸的在初赛进入前500名，复赛进入前300名。
主要工作包括：特征工程与特征选择、多模型选择、调参等。

2.特征工程与特征选择

2.1 基础特征

Id类、Level类：对item_id、 shop_id 、item_brand_id等特征，对数值区间进行了处理之后直接使用；使用LR模型时进行了one-hot处理。
Score类：未处理
其他：item_property_list提取了出现次数最多的n种属性，然后对样本进行one-hot, 对item_predict_catogery字段提取了前3个预测catogery；对catogery提取了类别属性，其中一级类别都一样。

2.2 交叉特征

对基础特征进行交叉，可以描述更加复杂更有效的特征。比如对收藏次数等级特征item_collect_level，直观理解收藏次数越多说明受到越多的关注，广告更容易得到转化；但是考虑展示1000次被收藏10次、展示100次被收藏9次两种情况，显然从“回头率”角度来看，后者更有吸引力；因此结合展示次数等级特征item_pv_level，可以提取出比较有效的展示收藏率特征，而且两个特征的取值数目都较少，交叉之后不会出现数据稀疏的问题。
在比赛中，提取交叉特征一方面依靠对特征的理解，另一方面借助了大佬开源的代码，包括特征工程代码（bangdasun/tianchi 等）和特征选择代码（duxuhao/Feature-Selection）。在特征选择代码中，采用+、-、*、/等运算进行特征交叉，可以交叉出意想不到的特征，并且可以在线上和线下同时提

最低0.47元/天解锁文章

Biglethz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
IJCAI-18阿里妈妈搜索广告转化预测参赛总结

1.概述花了两个月时间参加了IJCAI-18 阿里妈妈搜索广告转化预测比赛，对于一个刚接触ML的小白，第一次参加天池的比赛，十分有幸的在初赛进入前500名，复赛进入前300名。主要工作包括：特征工程与特征选择、多模型选择、调参等。2.特征工程与特征选择2.1 基础特征Id类、Level类：对item_id、 shop_id 、item_brand_id等特征，对数值区间进行了...
复制链接

扫一扫

专栏目录