优化问题综述(三)在线学习算法

本文概述了在线学习中的几种算法,包括SGD、TG(简单截断法和梯度截断法)、FOBOS、RDA和FTRL。这些算法在处理梯度下降、稀疏解和正则化方面各有特点。RDA和FTRL在保持高精度的同时,能更好地实现稀疏性,FTRL结合了二者的优势。
摘要由CSDN通过智能技术生成

Online learning是指每次来一个样本,利用一个迭代方法更新模型,使得当前期望loss最小。

梯度下降类的方法精度不错,但是简单的在线梯度下降很难产生真正稀疏的解,而且对于不可微点的迭代会存在一些问题。

SGD:

随机梯度下降法每次用一部分数据算梯度,然后梯度下降,但是SGD精度低、收敛慢、很难得到需要的正则化设计的解,特别是几乎得不到稀疏解。

TG算法

简单截断法

简单截断法以 k k 为窗口,当 t / k 不为整数时采用标准的SGD进行迭代,当 t/k t / k 为整数时,更新权重时,把绝对值小于阈值的权重置为0。

梯度截断法

简单截断法法简单直观,但是在实际训练过程中, W W 的某个维度为0可能因为该训练不足引起的,简单的截断过于简单粗暴,会造成该特征的缺失。梯度截断法对对权重的归零和截断处理稍微温柔一些,分段处理,绝对值小于阈值时, w = w λ s g n ( w ) ,如果使得 w w 变正负号,就把 w 置零。

FOBOS算法

FOBOS(Forward-Backward Splitting)是由John Duchi(Berkeley)和Yoram Singer(google)在2009提出的。FOBOS算法把正则化的梯度下降问题分成一个经验损失梯度下降迭代和一个最优化问题。其中第二个最优化问题有两项:第一项2范数那项表示不能离loss损失迭代结果太远,第二项是正则化项,用来限定模型复杂度、抑制过拟合和做稀疏化:

wt+12=wt+ηtg w t + 1 2 = w t + η t ⋅ g

wt+1=argminw12|wwt+12|2+ηt+12r(w) w t + 1 = a r g m i n w 1 2 | w − w t + 1 2 | 2 + η t + 1 2 r ( w )

由于求和公式中的每一项都是大于等于0的,所以步骤二可以拆解成对特征权重每一纬度单独求解。可以看出,L1-FOBOS是TG在特定条件下的特殊形式,对截断有了一定的改进。

RDA算法

Lin Xiao. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization. Journal of Machine Learning Research, 2010

RDA是Simple Dual Averaging Scheme的一个扩展,由Lin Xiao发表与2010年。RDA特征权重的更新策略为:

W(t+1)=argminW1tr=1t<G(r),W>+Φ(W
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值