关于在线机器学习ftrl_proximal_lr的二三件事

原创 2017年09月19日 11:04:42

题记:一直以为ftrl_proximal_lr模型是为了解决参数在内存中的使用问题。跟大神请教后,ta说:ftrl_proximal 为了解决online中模型稀疏性的问题。

前世今生

直接贴图:

从上面图可以看出来,这个模型的变异点就是梯度优化模块(即所谓的目标函数)。感觉ftrl_proximal_lr是集大家所成的,ftrl_proximal_lr是既能提高OGD准确率也能提供比RDA更好的稀疏性。那我们来分解一下最后的一个等式:第一项是梯度更新,第二项是L1正则项处理(产生稀疏解),第三项累积加和限定了新的迭代结果x不要离已迭代过的解太远(也即FTRL-Proximal中proximal的含义),保证泛化精度。这一项其实也是low regret的需求。所谓的low regret是Online learning中每次学习的误差减去使用用当前为止的最优函数而产生的误差的平均值。
这里写图片描述
上图更好的解释ftrl_proximal_lr的进化过程。

伪代码

这里写图片描述

先贴个图,虽然还没实现,但我在努力看大神的代码和框架,整理好,继续补充进来。
四个参数的设定结合paper里的指导意见以及反复实验测试,找一组适合自己问题的参数就可以了。所谓的per-coordinate,其意思是FTRL是对w每一维分开训练更新的,每一维使用的是不同的学习速率,也是上面代码中lamda2之前的那一项。与w所有特征维度使用统一的学习速率相比,这种方法考虑了训练样本本身在不同特征上分布的不均匀性,如果包含w某一个维度特征的训练样本很少,每一个样本都很珍贵,那么该特征维度对应的训练速率可以独自保持比较大的值,每来一个包含该特征的样本,就可以在该样本的梯度上前进一大步,而不需要与其他特征维度的前进步调强行保持一致。

参考资料如下
http://www.cnblogs.com/EE-NovRain/p/3810737.html
http://www.datakit.cn/blog/2016/05/11/ftrl.html#自动特征管理

版权声明:本文为博主原创文章,未经博主允许不得转载。

在线学习算法FTRL-Proximal原理

1.背景 Follow The Regularized Leader Proximal,简称FTRL,由Google公司提出。由于FTRL收敛速度快、能产生稀疏解等优势,FTRL在计算广告领域的重要...
  • a819825294
  • a819825294
  • 2016年04月23日 17:25
  • 12635

FTRL-Proximal上限证明 part-4

前言   前面对h0:t(x)=f1:t(x)+r0:t(x)h_{0:t}(x) = f_{1:t}(x)+r_{0:t}(x)形式的误差上限做了收敛证明。   如果,再加上其他的约束,误差上限还...
  • yujianmin1990
  • yujianmin1990
  • 2017年06月10日 12:10
  • 412

在线学习算法FTRL

在线学习算法FTRL         优化算法中的LBFGS解法以及GD等解法,是对一批样本进行一次求解,得到一个全局最优解。     实际的互联网广告应用需要的是快速地进行model的更新。...
  • mytestmy
  • mytestmy
  • 2014年02月08日 11:01
  • 36134

基于FTRL的在线CTR预测算法

本文主要讲解基于FTRL的在线CTR预测算法的主要思想以及Java实现
  • yz930618
  • yz930618
  • 2017年07月18日 09:35
  • 1426

关于在线机器学习ftrl_proximal_lr的二三件事

题记:一直以为ftrl_proximal_lr模型是为了解决参数在内存中的使用问题。跟大神请教后,ta说:ftrl_proximal 为了解决online中模型稀疏性的问题。前世今生直接贴图:...
  • u011437229
  • u011437229
  • 2017年09月19日 11:04
  • 459

在线学习算法FTRL-Proximal

本文首先简要说明了几种在线稀疏学习算法,如L1OGD,TG,FOBOS,RDA。然后主要介绍FTRL算法,包括参数更新策略,公式推导,和逐维度的学习率调度机制。最后给出了LR模型上带l1l2正则化的F...
  • u012151283
  • u012151283
  • 2017年10月09日 15:52
  • 467

关于 Java 性能监控您不知道的 5 件事,第 1 部分

当应用程序性能受到损害时,大多数开发人员都惊慌失措,这在情理之中。跟踪 Java 应用程序瓶颈来源一直以来都是很麻烦的,因为 Java 虚拟机有黑盒效应,而且 Java 平台分析工具一贯就有缺陷。 ...
  • guomei
  • guomei
  • 2015年06月29日 02:16
  • 334

阿里新一代计算引擎Blink与SQL和机器学习的二三事

随着大数据技术的不断发展和成熟,无论是传统企业还是互联网公司都已经不再满足于离线批处理,实时流处理的需求和重要性日益增长。 近年来业界一直在探索实时流计算引擎和API,比如这几年火爆的Spark...
  • qq_36852006
  • qq_36852006
  • 2017年10月12日 17:49
  • 312

【算法】在线学习算法FTRL详解

原文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html   现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),...
  • dengxing1234
  • dengxing1234
  • 2017年06月15日 11:09
  • 24808

在线学习算法FTRL

  • 2014年09月25日 15:43
  • 147KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:关于在线机器学习ftrl_proximal_lr的二三件事
举报原因:
原因补充:

(最多只允许输入30个字)