Kaggle实战项目学习笔记02:排序与CTR预估问题

案例

online advertising

在线广告业务。

三个收费模式

CTR(click-through rate)
CTR=clicks/Impression * 100%
曝光一千次有100人次点击。 = 0.1
typical click through rate is less than 1%

predict CTR

点击率高的广告主不一定会花很多钱。
例如:大众点评上,必胜客投钱的欲望不高。往往是急切需要用户知道的广告主才会投更多。
希望CTR能预估的最准
预测值-用户点击的概率
click-- 0 or 1
业界使用最多:logist regression
QQ的业务展示 是LR(因为没有什么检索系统,都是在空间或朋友圈里展示)
百度凤巢CTR预估模型为离散值LR
-规模大,刻画细致,-靠特征提升模型, -
现在阿里腾讯也上了DNN模型,但是不意味LR就放弃了。
LR GBDT 可解释性很高, 能查到特征的权重

需要大规模数据做实验的同学,可以在Cretio实验数据下载1TB的CTR预估所需数据

获取数据集: from kaggle
在这里插入图片描述
提供了不透明的数据。做过脱敏处理。一类连续型(前),一类离散型(后)
样本量集真的很大(5个G文本文件)

两种处理方式
1;下采样
2;0的数量远大于1(很多倍)
因为展示的广告 不被点击次数多很多–样本不均衡问题
对0的保留率会低一些。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值