预测广告点击率-FACEBOOK2014

摘要

本文提出了一个模型结合逻辑回和决策树,比单用任何其中一种方法都提高了3%。然后我们探索了多种参数如何影响系统性能。最重要的是有合适的特征:那些捕获关于用户和广告的历史信息。一旦我们有了合适的特征和合适的模型,其他因素的作用就很小。通过对新鲜的数据最优的处理,学习率策略和数据采样轻微的提高了模型表现。

介绍

实验设置:

为了实现严密的和可控的试验,我们准备了选取13年第四季度中任意一周的数据作为线下训练数据。为了在不同的条件下保持同样的训练和测试数据 ,我们准备了和线上观测数据相似的离线数据。分割离线数据为训练和测试,用他们模拟线上的数据流。 本文所有的试验都用同样的数据。
验证矩阵:因为我们最关心是这些因子对机器学习模型的影响,我们用预测的准确率取代了与收益直接相关的矩阵。本文我们用正规熵和校准率作为我们的主要验证矩阵。
正规熵或者更准确的叫正规交叉熵等价于每次影响的平均对数损失除以如果一个模型对每次影响预测的背景点击率时每次影响的平均对数损失。换句话说,是通过背景CTR的熵来正则化预测的对数损失。背景ctr是训练数据集上的平均经验ctr。

这或许更多的是指度量的归一化对数损失。 值越低,模型的预测效果越好。归一化的原因是背景CTR越接近于要么是0要么是1,更容易实现一个更好的对数损失。 除以背景ctr 的熵使得归一化熵是不敏感的对于背景CTR。假设一个给定的训练数据集有N个样本标签为{-1,1}估计点击的概率是pi,那么平均经验CTR是:
NE是一个必要的组成部分在计算相对信息增益时,相对信息增益RIG=1-NE。校准是平均估计ctr和经验ctr的比率。换句话说,他是期待点击数与实际点击数的比例。校准是一个非常重要的矩阵因为准确率和好的校准预测对于在线预测的成功是很重要的。校准和1不同的更少,模型更好。我们仅仅报告实验中的当有差别时的校准。
注意,AUC是一个适合在不考虑校准时测量质量排名的矩阵。在现实的环境中,我们希望预测是准确的而不是为了避免潜在的交互不足或过交互而得到基本上最优的排名。正规熵测量了预测的有效和隐性的反馈校准。例如,如果一个模型过度预测两倍,那我们应用一个全局乘数0.5去固定校准,虽然auc保持不变,NE将会提高。

预测模型结构

结构:boosted决策树和概率稀疏线性分类器的结合。、
决策树是对于输入信息转换有很大作用,显著的增加了概率线性分类器的准确率。
更新的训练数据使得更准确的预测。
这激发了一个想法,就是用在线学习的方法取训练线性分类器。我们比较了两种线性分类器的各种变体。基于随机梯度下降用于稀疏线性分类器验证学习策略。经过特征转换后,一个广告对象被转换成一种向量结构
x=(ei1,...ein)
ei表示第i位为1的单位向量,i1,,,in输入特征的n个类别的值。标签{-1,1}表示点击或未点击。
(x,y)
s(y,x,w)=ywTx w是线性点击得分的权重向量。

………………………………………..未完待续

展开阅读全文

没有更多推荐了,返回首页