20240317-2-推荐算法FTRL

FTRL

在这里插入图片描述

FTRL(Follow the Regularized Leader) 由Google的H. Berendan McMahan 等人于2010年提出【4】,FTRL是一种在线最优化求解算法,结合L1-FOBOS和L1-RDA算法,用于解决在线学习中,权重参数不能产生较好的稀疏性的问题。
由于在线学习涉及内容较多,本文从提升模型稀疏性的角度入手,简单介绍经典的TG, L1-FOBOS, L1-RDA 和 FTRL 算法的原理。

模型稀疏性

众所周知,Lasso对权重参数(W)引入L1正则项使得模型的训练结果具有稀疏性,稀疏的模型不仅有变量选择的功能,同时在模型线上进行预测时,可以大大减小运算量。但是在在线学习的场景下,利用SGD的方式进行权重参数(W)的更新,每次只使用一个样本,权重参数的更新具有很大的随机性,无法将权重参数准确地更新为0。为解决这一问题,TG, L1-FOBOS, L1-RDA,FTRL 等一系列算法被提出。

TG(Truncated Gradient)

为了得到具有稀疏性的权重参数(W),最简单的方法就是引入一个阈值,当某个权重参数的值小于该阈值就将其置0。TG方法就是在这个想法的基础上,稍加改进,使用如下式的梯度更新方式。
W ( t + 1 ) = T 1 ( W ( t ) − η ( t ) G ( t ) , η ( t ) λ ( t ) , θ ) W^{(t+1)}=T_{1}\left(W^{(t)}-\eta^{(t)} G^{(t)}, \eta^{(t)} \lambda^{(t)}, \theta\right) W(t+1)=T1(W(t)η(t)G(t),η(t)λ(t),θ)
T 1 ( v i , α , θ ) = { max ⁡ ( 0 , v i − α )  if  v i ∈ [ 0 , θ ] min ⁡ ( 0 , v i + α )  if  v i ∈ [ − θ , 0 ] v i  otherwise  T_{1}\left(v_{i}, \alpha, \theta\right)=\left\{\begin{array}{ll} \max \left(0, v_{i}-\alpha\right) & \text { if } v_{i} \in[0, \theta] \\ \min \left(0, v_{i}+\alpha\right) & \text { if } v_{i} \in[-\theta, 0] \\ v_{i} & \text { otherwise } \end{array}\right. T1(vi,α,θ)= max(0,viα)min(0,vi+α)vi if vi[0,θ] if vi[θ,0] otherwise 
其中 G ( t ) G^{(t)} G(t)是当前参数的梯度, η ( t ) \eta^{(t)} η(t)是学习率, λ ( t ) \lambda^{(t)} λ(t)控制梯度阶段发生的频次,每k次进行一次梯度截断。 θ \theta θ为梯度截断时设置的阈值。通过调节 λ , θ \lambda,\theta λ,θ可以权重参数的稀疏性。

λ ( t ) = { k λ , t   m o d   k = 0 0 , o t h e r w i s e \lambda^{(t)}=\left\{ \begin{aligned} k\lambda & , & t\ mod\ k = 0 \\ 0 & , & otherwise \end{aligned} \right. λ(t)={0,,t mod k=0otherwise

L1-FOBOS

FOBOS(Forward-Backward Splitting)分两步更新权重。
W ( t + 1 2 ) = W ( t ) − η ( t ) G ( t ) W^{\left(t+\frac{1}{2}\right)}=W^{(t)}-\eta^{(t)} G^{(t)} W(t+21)=W(t)η(t)G(t)
W ( t + 1 ) = arg ⁡ min ⁡ W { 1 2 ∥ W − W ( t + 1 2 ) ∥ 2 + η ( t + 1 2 ) Ψ ( W ) } W^{(t+1)}=\arg \min _{W}\left\{\frac{1}{2}\left\|W-W^{\left(t+\frac{1}{2}\right)}\right\|^{2}+\eta^{\left(t+\frac{1}{2}\right)} \Psi(W)\right\} W(t+1)=argWmin{21 WW(t+21) 2+η(t+21)Ψ(W)}

FOBOS的第一步就是正常的梯度下降算法,第二部对W进行调整,引入正则项使得参数具有稀疏性。将以上两部转换为一步,可以有如下表达。
W ( t + 1 ) = argmin ⁡ W { 1 2 ∥ W − W ( t ) + η ( t ) G ( t ) ∥ 2 + η ( t + 1 2 ) Ψ ( W ) } W^{(t+1)}=\operatorname{argmin}_{W}\left\{\frac{1}{2}\left\|W-W^{(t)}+\eta^{(t)} G^{(t)}\right\|^{2}+\eta^{\left(t+\frac{1}{2}\right)} \Psi(W)\right\} W(t+1)=argminW{21 WW(t)+η(t)G(t) 2+η(t+21)Ψ(W)}

实际使用中,将FOBOS中的正则算子 Ψ ( W ) \Psi(W) Ψ(W)替换成 λ ∥ W ∥ 1 \lambda\Vert W\Vert_{1} λW1,通过数学推导,最终可以获得如下的梯度新公式。
w i ( t ) = s g n w i ( t ) − η ( t ) g i ( t ) ) max ⁡ ( 0 , ∣ w i ( t ) − η ( t ) g i ( t ) ∣ − η ( t + 1 2 ) λ ) w_i^{(t)}=sgnw_{i}^{(t)}-\eta^{(t)}g_i^{(t)})\max(0, \vert w_{i}^{(t)}-\eta^{(t)}g_i^{(t)}\vert - \eta^{(t+\frac{1}{2})}\lambda) wi(t)=sgnwi(t)η(t)gi(t))max(0,wi(t)η(t)gi(t)η(t+21)λ)
从公式中可以发现,一旦权重参数更新后的值 ∣ w i ( t ) − η ( t ) g i ( t ) ∣ \vert w_{i}^{(t)}-\eta^{(t)}g_i^{(t)}\vert wi(t)η(t)gi(t)小于 η ( t + 1 2 ) λ \eta^{(t+\frac{1}{2})}\lambda η(t+21)λ就将改权重参数置0。

L1-RDA

RDA(Regularized Dual Average)是牺牲一定精度,进一步提升权重参数稀疏性的方法,如下是L1-RDA使用的权重参数更新公式。
W ( t + 1 ) = arg ⁡ min ⁡ W { 1 t Σ r = 1 t G ( r ) ⋅ W + λ ∥ W ∥ 1 + γ 2 t ∥ W ∥ 2 2 } W^{(t+1)}=\underset{W}{\arg\min}\{\frac{1}{t}\Sigma_{r=1}^t G^{(r)}\cdot W+\lambda\Vert W\Vert_1 + \frac{\gamma}{2\sqrt t}\Vert W\Vert_{2}^2\} W(t+1)=Wargmin{t1Σr=1tG(r)W+λW1+2t γW22}
其中 Σ r = 1 t G ( r ) \Sigma_{r=1}^t G^{(r)} Σr=1tG(r)是历史的梯度的平均值。
通过数学推导L1-RDA有如下等价的参数更新公式。
w i ( t + 1 ) = { 0   , i f ∣ g ˉ i ( t ) < λ − t γ ( g ˉ i ( t ) − λ s g n ( g ˉ i ( t ) ) ) , o t h e r w i s e w_i^{(t+1)}=\left\{ \begin{matrix} 0 \ & , & if \vert \bar{g}_i^{(t)} < \lambda \\ -\frac{\sqrt{t}}{\gamma}(\bar g _i ^{(t)}-\lambda sgn(\bar g_i^{(t)})) & , & otherwise \end{matrix} \right. wi(t+1)={0 γt (gˉi(t)λsgn(gˉi(t))),,ifgˉi(t)<λotherwise
从公式中可以发现,一旦权重参数的历史平均梯度小于阈值 λ \lambda λ就将该权重参数置0。

FTRL

通常情况下,L1-FOBOS在计算最优解的精度上较高,而L1-RDA在损失一定精度的前提下可以获得更加稀疏的权重参数(W)。FTRL结合L1-FOBOS和L1-RDA的优点而产生的算法。
通过数学推导,L1-FOBOS可以写为:
W ( t + 1 ) = arg ⁡ min ⁡ W { G ( t ) ⋅ W + λ ∥ W ∥ 1 + 1 2 η ( t ) ∥ W − W ( t ) ∥ 2 2 } W^{(t+1)}=\arg \min _{W}\left\{G^{(t)} \cdot W+\lambda\|W\|_{1}+\frac{1}{2 \eta^{(t)}}\left\|W-W^{(t)}\right\|_{2}^{2}\right\} W(t+1)=argWmin{G(t)W+λW1+2η(t)1 WW(t) 22}
L1-RDA可以写为:
W ( t + 1 ) = arg ⁡ min ⁡ W { G ( 1 : t ) ⋅ W + t λ ∥ W ∥ 1 + 1 2 η ( t ) ∥ W − 0 ∥ 2 2 } W^{(t+1)}=\arg \min _{W}\left\{G^{(1: t)} \cdot W+t \lambda\|W\|_{1}+\frac{1}{2 \eta^{(t)}}\|W-0\|_{2}^{2}\right\} W(t+1)=argWmin{G(1:t)W+tλW1+2η(t)1W022}
其中 G ( 1 : t ) = Σ i t G ( i ) 其中G^{(1: t)}=\Sigma_i^t G^{(i)} 其中G(1:t)=ΣitG(i)

FTRL结合上两时,可以写作:
W ( t + 1 ) = arg ⁡ min ⁡ W { G ( 1 : t ) ⋅ W + λ 1 ∥ W ∥ 1 + λ 2 1 2 ∥ W ∥ 2 2 + 1 2 ∑ s = 1 σ ( s ) ∥ W − W ( s ) ∥ 2 2 } W^{(t+1)}=\arg \min _{W}\left\{G^{(1: t)} \cdot W+\lambda_{1}\|W\|_{1}+\lambda_{2} \frac{1}{2}\|W\|_{2}^{2}+\frac{1}{2} \sum_{\mathrm{s}=1} \sigma^{(s)}\left\|W-W^{(s)}\right\|_{2}^{2}\right\} W(t+1)=argWmin{G(1:t)W+λ1W1+λ221W22+21s=1σ(s) WW(s) 22}
其中引入 ∥ W ∥ 2 2 不会影响稀疏性,同时会使解更加“光滑”。 其中引入\Vert W\Vert_2^2不会影响稀疏性,同时会使解更加“光滑”。 其中引入W22不会影响稀疏性,同时会使解更加光滑

通过数学推导,FTRL有如下表达形式:
w i ( t + 1 ) = { 0  if  ∣ z i ( t ) ∣ < λ 1 − ( λ 2 + ∑ s = 1 t σ ( s ) ) − 1 ( z i ( t ) − λ 1 sgn ⁡ ( z i ( t ) ) )  otherwise  w_{i}^{(t+1)}=\left\{\begin{array}{ll} 0 & \text { if }\left|z_{i}^{(t)}\right|<\lambda_{1} \\ -\left(\lambda_{2}+\sum_{s=1}^{t} \sigma^{(s)}\right)^{-1}\left(z_{i}^{(t)}-\lambda_{1} \operatorname{sgn}\left(z_{i}^{(t)}\right)\right) & \text { otherwise } \end{array}\right. wi(t+1)= 0(λ2+s=1tσ(s))1(zi(t)λ1sgn(zi(t))) if  zi(t) <λ1 otherwise 
Z ( t ) = G ( 1 : t ) − ∑ s = 1 t σ ( s ) W ( s ) Z^{(t)}=G^{(1: t)}-\sum_{s=1}^{t} \sigma^{(s)} W^{(s)} Z(t)=G(1:t)s=1tσ(s)W(s)

##总结
本文简单梳理了在线学习中提升权重参数稀疏性的算法的思想,公式较为繁多。对其中的基础知识和公式推导感兴趣的小伙伴可以参考冯扬的《在线最优化求解》【1】,对于FTRL的工程实现感兴趣的小伙伴可以参阅H. Brendan McMahan 等人于2013发表的论文【2】 ,【3】是2011年发表的一篇关于FTRL和FOBOS, RDA比较的论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

武昌库里写JAVA

您的鼓励将是我前进的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值