点击率预估(CTR)之传统输入方法描述和常用数据集

目录

CTR问题定义:

传统输入描述(one_hot):

常用数据集


CTR问题定义:

点击率预测(Click-Through Rate Prediction)是根据给定广告、用户和上下文情况等信息,对每次广告(或者商品)的点击情况做出预测。其中,对于用户历史行为数据的挖掘尤为重要,从这些历史行为中我们可以获取更多的关于用户兴趣的信息,从而帮助作出更准确的CTR预估。预估准确性直接影响公司收入。CTR预估中用的最多的模型是LR(Logistic Regression)、DIN等;

传统输入描述(one_hot):

例如给定一个样本数据如:

 

 

是否点击国家日期广告商品类型
1日本19.1.12电影
0美国19.1.10游戏
1日本19.1.12游戏

上述的三个特征都是非线性的,因此如果将其特征表示为向量形式,只能采用独热编码的方式(one-hot):

标签美国日本19.1.1019.1.12电影游戏
1010110
0101001
1010101

因此,上述特征的编码形式存在一定的问题,一是一般categories特征经过one-hot编码以后,样本数据会变得很稀疏,假设有10万个item,如果对item的这个维度进行one-hot编码,这个维度的数据稀疏性就是十万分之一,所以数据的稀疏性是,是实际应用中常见的挑战。其次one-hot编码的另一个问题是特征空间变大,上面的10万个item,编码后样本空间有一个categories会变成10万维,特征空间会暴增。因此需要进一步的优化,例如FM方法等。

常用数据集

1.Display Advertising Challenge挑战的criteo数据集

2. 淘宝数据集

3. 亚马逊数据集

以亚马逊数据集为例,我们给出数据集的描述:

meta_Electronics.json

asin    产品的ID
imUrl    产品图片地址
description    产品描述
categories    产品所属的类别列表
title    产品名称
Price 价格
salesRank 销售排名信息
related 相关产品(也已购买,也已查看,一起购买,已查看后购买)
Brand 品牌

reviews_Electronics_5.json

reviews_Electronics数据    
reviewerID    评论者id,例如[A2SUAM1J3GNN3B]
asin    产品的id,例如[0000013714]
reviewerName    评论者昵称
helpful    评论的有用性评级,例如2/3
reviewText    评论文本
overall    产品的评级
summary    评论摘要
unixReviewTime    审核时间(unix时间)
reviewTime    审核时间(原始)
meta_Electronics 数据    

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

就是求关注

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值