Datawhale干货
作者:鱼佬,武汉大学硕士,Datawhale成员
针对广告推荐CTR点击率预估实践的入门实践已经发布。在该版本基础上,写了一版进阶的学习教程,包含详细的特征工程处理代码,希望能有助于大家提分。
实践背景
赛题任务
本赛题希望选手基于广告日志数据,用户基本信息和跨域数据优化广告ctr预估准确率。赛题详细信息可参考赛事官方网站。
报名及数据下载
报名地址:
https://developer.huawei.com/consumer/cn/activity/digixActivity/digixdetail/101655281685926449?ha_source=dw1&ha_sourceId=89000243
数据下载步骤:
https://xj15uxcopw.feishu.cn/docx/doxcnUGTrDBMefWFv4U8VfFVpDd
实践思路
实践基础思路
本次实践是一个经典点击率预估(CTR)的数据挖掘赛,任务是根据用户的测试数据来预测这个用户是否点击广告。
这种类型的任务是典型的二分类问题(点击/不点击),模型的预测输出为 0 或 1 (点击:1,未点击:0)
机器学习中,关于分类任务我们一般会想到逻辑回归、决策树等算法,在这个 Baseline 中,我们尝试使用CatBoost来构建我们的模型。我们在解决机器学习问题时,一般会遵循以下流程:
代码表现及优化建议
该Baseline代码在华为赛事提交的成绩为0.72+,排名50左右。若大家想学习提升,可参考以下三种思路:
继续尝试不同的预测模型或特征工程来提升模型预测的准确度
尝试模型融合等策略
查阅广告信息流跨域ctr预估预测相关资料,获取其他模型构建方法
代码实现
需要内存:10GB