作者主要展示了CTR预估系统中最近的研究和实验。包括了improvements in the context of traditional supervised learning,这是基于FTRL-Proximal online learning algorithm (which has excellent sparsity and convergence properties)和per-coordinate learning rates。本文同样探索了传统机器学习研究在真实世界中可能遇到的挑战,包括memory savings的技巧, assessing and visualizing performance的方法,providing confidence estimates for predicted probabilities的方法, calibration methods, and methods for automated management of features。最后也列出了部分尝试过但没有明显效果的方式。
本文的主要目的是强调在理论和实践在广告系统中的联系,并列举了在复杂动态系统中传统机器学习方法可能遇到的问题。
FTRL-Proximal online learning algorithm
在大规模训练中,在线算法有很多优点,例如generalized linear models (e.g., logistic regression)。这些算范使得从内存或者网络来的流式数据能够进行有效的训练。尤其是在面对特征矩阵百万维度,而一个样本只有百个非空维度。
Online gradient descent(OGD)已经被证明在使用很少计算资源的情况下可以用来解决计算问题。但是OGD只能用于producing sparse models。更加复杂的方法,例如FOBOS和truncated gradient可以用于解决稀疏问题。但是,梯度下降方法的accuracy比RDA更高。因此,作者使用了一种方法,"Follow The (Proximally) Regularized Leader"算法,或者简称FTRL-Proximal。下文具体讲述FTRL-Proximal。
Per-coordinate Learning Rates
在原始的在线梯度下降中,常用. 简单理解,假设我们正在抛10个硬币进行logistic回归。每一个硬币是0或者1,因此会得到一个10维的0-1矩阵。因此我们实际是在解决10个相互独立的回归问题,然后packaged up into一个问题。我们可以同时去解决10问题,现实情况是,如果硬币 i 比硬币 j 下降的更快,那么 j 迭代的速度更快,而硬币 i 依旧使用着旧的结果,这会导致最终结果的置信度较低。Streeter and McMahan have shown a family of problems where the performance for the standard algorithm is asymptotically much worse than running independent copies.
Saving Memory at Massive Scale
后文主要讲解实际应用的技巧,此处不进行详解。