点击率预估模型汇总_【计算广告】LR进行点击率预估

7096dd63569e96131d2b54f2556344c6.png

论文题目: Predicting Clicks: Estimating the Click-Through Rate for New Ads

该论文是07年微软发表的一篇用LR做广告点击率预估,背景是以往的点击率预估模型对于新广告无法很好的处理,该论文通过拓展特征集对不同的feature set建模,比较KL-散度,筛选出最佳模型,对新广告有很准确的预估。

  1. 背景:

在线广告的计费方式多种多样,本文遵循CPC(cost-per-click)方式对广告计费,

,因此如果使收益最大化,广告在搜索展示页面的排序十分重要。我们需要对p(click)进行预估,在广告系统中
,假设 1)被点击的广告不可能浏览量为0;2)广告被点击的概率与位置无关,而与是否被浏览有关;3)广告被浏览的概率与广告本身内容无关,而与广告的位置有关,那么上述的式子简化为
,其中
的估计文中提到了一种追踪眼球运动的装置能够发现用户观看搜索结果的情况,那么我们需要做的就是对
的预估。

2. 数据预处理:

1) 广告主给的一则广告大概率对应多个term(搜索关键词),每一个term都应该单独对待为一条广告,同时为了避免train-test contamination(训练集测试集污染)的发生,我们按照广告主的维度划分训练(70%)-测试(20%)-验证集(10%),同一个广告主只可能出现在唯一的数据集中;

2)把高级账户去掉,高级账户往往和普通账户有很大的差别,应该分开进行建模(原因是首先不同账户类别之间的广告方差很大,其次这篇文章就是针对没有或者很少经验数据的广告主);

3)限制每个广告主随机选择1000条广告,确保差异性;

4)有一些广告view会很少,这样它的期望ctr与经验ctr会非常不同,所以去掉少于100次观看的广告(100是训练和测试中需要更多和更少的views的平衡,后文的解释是views更高会在训练集上的表现更好,但是对于预测新的广告,会有较大的偏差);

5)对于每个feature,添加

, 对所有的这些feature做归一化,具体是在training set上,将特征归一化并应用到测试集上;

6)一些特征具有明显的离群值,因此任何与均值超过五个标准偏差的特征值都被截断为五个标准偏差。

3. 模型:

选择LR模型,CTR的公式如下:


其中
表示的是数据集中第i个特征,训练模型采用的是L-BFGS(Limited-Memory Broyden-Fletcher-Goldfarb-Shanno)的方法(该方法是从拟牛顿法衍生出来求解最优化的方法,BFGS好处是具有全局收敛性和超线性收敛速度,简而言之就是更快,L-BFGS限制了内存,单机运行速度会慢于BFGS,但是多机并行的时候表现更好);loss function是交叉熵损失;模型选择的方法是比较KL-散度和MSE。

4. 特征选择:

Term CTR

1)第一个特征是用户搜索关键词的相关的广告历史数据(不包括当前需要预测的广告主的数据,以免污染)的CTR如下:

上述公式中,

是给定的term相关数据的总数,
是这些相关数据的平均CTR,
是全部的训练集的平均,
是权重的表达,实验中权重设置为1。

2)第二个特征是

这两个特征组成了 Term CTR feature set,实验效果如下图:

b40eb8800cb09c1c36fea5f36ea1d47e.png

(注意:baseline的feature只有一个feature,

Related Term CTR

搜索关键词相关的关键词考虑做特征,比如搜索词是'red shoes',那么'buy red shoes'是相关的搜索关键词,本文给出了一套相关的搜索词的判断方式,把所有的相关词组成

1)Related Term CTR的特征集和 Term CTR很像,也是诸如

公式的形式进行特征平滑,只不过其中的
以及
变成了如下形式:
  • 是全部相关搜索词的平均点击率;
  • ,是搜索词相关词的数量。

2)同Term CTR,Related Term CTR也把

数量作为特征。

实验效果如上图。

Ad Quality

主要是从Appearance、Attention capture、Reputation、Landing page quality、Relevance五个方向增加特征,论文得出了标语(unigrams)对模型表现影响较大,实验效果如下图:

990d9d97a544fe8f8f565cf5120d9bdb.png

Order Specificity

在Ad Quality的基础上,对广告主提过来的工单(order)对term分类,分为74种,把每个工单的每个term所属种类的分布的熵做为新的feature。实验效果如下图:

a3b9588fbc03e534148d6a01df9ed786.png

External Sources of Data

不局限于广告本身,挖掘一些外部特征,该论文添加了网络上出现的术语的近似频率,以及搜索引擎用户查询该术语的近似频率两个特征。实验效果如下图:

d556481f67b2923ef75d8f0d66784ebb.png

5.总结

论文最后讨论的特征重要性以及未来工作的展望,其中由于特征并不是相互独立的,所以重要性排序并无太大意义,对于该模型来说,特征越多,鲁棒性越好,高观看数(views)也会让模型更准确。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值