Ad Click Prediction: a View from the Trenches
ABSTRACT
广告点击率预测是一个大规模的学习问题,对数十亿美元的在线广告行业至关重要。我们从部署的CTR预测系统的设置中提供了一些案例研究和从最近的实验中提取的话题,包括基于FTRL-Proximal在线学习算法(具有出色的稀疏性和收敛特性)以及使用每个坐标学习率的传统监督学习语境的改进。
我们也探讨了现实世界系统中出现的一些挑战,它们最初可能出现在传统机器学习研究领域之外,包括用于节省内存的有效技巧,用于评估和可视化性能的方法,用于提供预测概率的置信度估计的实用方法,校准方法以及自动管理特征的方法。最后,我们还详细介绍了几个对我们没有效果的方向,尽管文献中的其他方面都有其成果。本文目的是突出现在的工业环境中理论进展与实际工程之间的密切关系,并展示在复杂动态系统中应用传统机器学习方法时出现的挑战深度。
KEYWORDS
在线广告,数据挖掘,大规模学习
1、INTRODUCTION
在线广告是一个价值数十亿美元的行业,已成为机器学习的重要成功案例之一。赞助搜索广告,内容相关广告,展示广告和实时出价拍卖都严重依赖于学习模型准确,快速,可靠地预测广告点击率的能力。这个问题的设定也促使该领域解决了甚至十年前几乎不可想象的规模问题。典型的工业模型可以使用相应大小的特征空间提供每天数十亿事件的预测,然后从所得到的大量数据中学习。
在本文中,我们提供了一系列案例研究,这些案例研究来自最近的实验,用于设置Google使用的部署系统,以预测赞助搜索广告的广告点击率。由于此问题设置现已得到充分研究,因此我们选择关注一系列受到较少关注但在工作系统中同样重要的主题。因此,我们探讨了内存节省,性能分析,预测置信度,校准和特征管理等问题,这些问题与传统上设计有效学习算法的问题相同。本文的目的是让读者了解真实工业环境中出现的挑战深度,以及分享可能应用于其他大规模问题领域的技巧和见解。
2、BRIEF SYSTEM OVERVIEW
当用户进行搜索q时,基于广告商选择的关键字将初始候选广告集与查询q匹配。然后,拍卖机制确定是否向用户显示这些广告,他们显示的顺序以及广告商在点击广告时支付的价格。除了广告客户出价之外,对于每个广告a,拍卖的重要输入是P的估计(click| q,a),即该广告如果显示