抽空拜读谷歌2013年发表的论文“Ad Click Prediction: a View from the Trenches”,进行一些简单的小结。
大型广告系统的成功需要很多相互协调的子系统和组件,而其中最基础的一个字系统,也是整个广告系统中最核心的功能之一,便是点击率预估系统。
根据环境和广告的类型没来估计用户有多大的可能性点击当前的广告。
2013年发表于KDD工业论文组
Google要处理的数据量很大,不管是样本数量还是样本的特征数量都是百亿级别的,所以选用什么样的算法至关重要。2013年,深度学习环境还没有完全成熟,Google科学家和工程师选用了LR这个传统而强大的线性算法
回顾:逻辑回归是要对二元分类问题进行建模,模型的核心是通过一组(可能是巨大的)特征以及所对应的参数来对目标的标签进行拟合。这个拟合过程是通过一个叫Sigmoid函数来完成的,使得线性特征以及参数的拟合能够非线性转换为二元标签。
普通逻辑回归不适应大规模广告点击率预估。原因有二:第一,数据量太大。传统的逻辑回归参数训练过程都依赖牛顿法或L-BFGS等算法。这些算法并不容易在大规模数据集上得以处理,第二,不容易得到稀疏解。
我们希望最终学习到的模型也是稀疏的,也就是对于单个数据点来说