论文题目: Predicting Clicks: Estimating the Click-Through Rate for New Ads
该论文是07年微软发表的一篇用LR做广告点击率预估,背景是以往的点击率预估模型对于新广告无法很好的处理,该论文通过拓展特征集对不同的feature set建模,比较KL-散度,筛选出最佳模型,对新广告有很准确的预估。
- 背景:
在线广告的计费方式多种多样,本文遵循CPC(cost-per-click)方式对广告计费,
2. 数据预处理:
1) 广告主给的一则广告大概率对应多个term(搜索关键词),每一个term都应该单独对待为一条广告,同时为了避免train-test contamination(训练集测试集污染)的发生,我们按照广告主的维度划分训练(70%)-测试(20%)-验证集(10%),同一个广告主只可能出现在唯一的数据集中;
2)把高级账户去掉,高级账户往往和普通账户有很大的差别,应该分开进行建模(原因是首先不同账户类别之间的广告方差很大,其次这篇文章就是针对没有或者很少经验数据的广告主);
3)限制每个广告主随机选择1000条广告,确保差异性;
4)有一些广告view会很少,这样它的期望ctr与经验ctr会非常不同,所以去掉少于100次观看的广告(100是训练和测试中需要更多和更少的views的平衡,后文的解释是views更高会在训练集上的表现更好,但是对于预测新的广告,会有较大的偏差);
5)对于每个feature,添加
6)一些特征具有明显的离群值,因此任何与均值超过五个标准偏差的特征值都被截断为五个标准偏差。
3. 模型:
选择LR模型,CTR的公式如下:
其中
4. 特征选择:
Term CTR
1)第一个特征是用户搜索关键词的相关的广告历史数据(不包括当前需要预测的广告主的数据,以免污染)的CTR如下:
上述公式中,
2)第二个特征是
这两个特征组成了 Term CTR feature set,实验效果如下图:
(注意:baseline的feature只有一个feature,
Related Term CTR
搜索关键词相关的关键词考虑做特征,比如搜索词是'red shoes',那么'buy red shoes'是相关的搜索关键词,本文给出了一套相关的搜索词的判断方式,把所有的相关词组成
1)Related Term CTR的特征集和 Term CTR很像,也是诸如
-
;
-
是全部相关搜索词的平均点击率;
-
,是搜索词相关词的数量。
2)同Term CTR,Related Term CTR也把
实验效果如上图。
Ad Quality
主要是从Appearance、Attention capture、Reputation、Landing page quality、Relevance五个方向增加特征,论文得出了标语(unigrams)对模型表现影响较大,实验效果如下图:
Order Specificity
在Ad Quality的基础上,对广告主提过来的工单(order)对term分类,分为74种,把每个工单的每个term所属种类的分布的熵做为新的feature。实验效果如下图:
External Sources of Data
不局限于广告本身,挖掘一些外部特征,该论文添加了网络上出现的术语的近似频率,以及搜索引擎用户查询该术语的近似频率两个特征。实验效果如下图:
5.总结
论文最后讨论的特征重要性以及未来工作的展望,其中由于特征并不是相互独立的,所以重要性排序并无太大意义,对于该模型来说,特征越多,鲁棒性越好,高观看数(views)也会让模型更准确。