目录
CTR问题定义:
点击率预测(Click-Through Rate Prediction)是根据给定广告、用户和上下文情况等信息,对每次广告(或者商品)的点击情况做出预测。其中,对于用户历史行为数据的挖掘尤为重要,从这些历史行为中我们可以获取更多的关于用户兴趣的信息,从而帮助作出更准确的CTR预估。预估准确性直接影响公司收入。CTR预估中用的最多的模型是LR(Logistic Regression)、DIN等;
传统输入描述(one_hot):
例如给定一个样本数据如:
是否点击 | 国家 | 日期 | 广告商品类型 |
1 | 日本 | 19.1.12 | 电影 |
0 | 美国 | 19.1.10 | 游戏 |
1 | 日本 | 19.1.12 | 游戏 |
上述的三个特征都是非线性的,因此如果将其特征表示为向量形式,只能采用独热编码的方式(one-hot):
标签 | 美国 | 日本 | 19.1.10 | 19.1.12 | 电影 | 游戏 |
1 | 0 | 1 | 0 | 1 | 1 | 0 |
0 | 1 | 0 | 1 | 0 | 0 | 1 |
1 | 0 | 1 | 0 | 1 | 0 | 1 |
因此,上述特征的编码形式存在一定的问题,一是一般categories特征经过one-hot编码以后,样本数据会变得很稀疏,假设有10万个item,如果对item的这个维度进行one-hot编码,这个维度的数据稀疏性就是十万分之一,所以数据的稀疏性是,是实际应用中常见的挑战。其次one-hot编码的另一个问题是特征空间变大,上面的10万个item,编码后样本空间有一个categories会变成10万维,特征空间会暴增。因此需要进一步的优化,例如FM方法等。
常用数据集
1.Display Advertising Challenge挑战的criteo数据集
2. 淘宝数据集
3. 亚马逊数据集
以亚马逊数据集为例,我们给出数据集的描述:
meta_Electronics.json
asin 产品的ID
imUrl 产品图片地址
description 产品描述
categories 产品所属的类别列表
title 产品名称
Price 价格
salesRank 销售排名信息
related 相关产品(也已购买,也已查看,一起购买,已查看后购买)
Brand 品牌
reviews_Electronics_5.json
reviews_Electronics数据
reviewerID 评论者id,例如[A2SUAM1J3GNN3B]
asin 产品的id,例如[0000013714]
reviewerName 评论者昵称
helpful 评论的有用性评级,例如2/3
reviewText 评论文本
overall 产品的评级
summary 评论摘要
unixReviewTime 审核时间(unix时间)
reviewTime 审核时间(原始)
meta_Electronics 数据