【论文】Ad Click Prediction: a View from the Trenches

作者主要展示了CTR预估系统中最近的研究和实验。包括了improvements in the context of traditional supervised learning,这是基于FTRL-Proximal online learning algorithm (which has excellent sparsity and convergence properties)和per-coordinate learning rates。本文同样探索了传统机器学习研究在真实世界中可能遇到的挑战,包括memory savings的技巧, assessing and visualizing performance的方法,providing confidence estimates for predicted probabilities的方法, calibration methods, and methods for automated management of features。最后也列出了部分尝试过但没有明显效果的方式。

本文的主要目的是强调在理论和实践在广告系统中的联系,并列举了在复杂动态系统中传统机器学习方法可能遇到的问题。

FTRL-Proximal online learning algorithm

在大规模训练中,在线算法有很多优点,例如generalized linear models (e.g., logistic regression)。这些算范使得从内存或者网络来的流式数据能够进行有效的训练。尤其是在面对特征矩阵百万维度,而一个样本只有百个非空维度。

Online gradient descent(OGD)已经被证明在使用很少计算资源的情况下可以用来解决计算问题。但是OGD只能用于producing sparse models。更加复杂的方法,例如FOBOS和truncated gradient可以用于解决稀疏问题。但是,梯度下降方法的accuracy比RDA更高。因此,作者使用了一种方法,"Follow The (Proximally) Regularized Leader"算法,或者简称FTRL-Proximal。下文具体讲述FTRL-Proximal。

Per-coordinate Learning Rates

在原始的在线梯度下降中,常用. 简单理解,假设我们正在抛10个硬币进行logistic回归。每一个硬币是0或者1,因此会得到一个10维的0-1矩阵。因此我们实际是在解决10个相互独立的回归问题,然后packaged up into一个问题。我们可以同时去解决10问题,现实情况是,如果硬币 i 比硬币 j 下降的更快,那么 j 迭代的速度更快,而硬币 i 依旧使用着旧的结果,这会导致最终结果的置信度较低。Streeter and McMahan have shown a family of problems where the performance for the standard algorithm is asymptotically much worse than running independent copies. 

Saving Memory at Massive Scale

后文主要讲解实际应用的技巧,此处不进行详解。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值