凸优化简介25

本文介绍了随机梯度下降的下界分析,探讨了随机镜像下降方法及其收敛性,以及如何通过减少方差、自适应步长和自适应Bregman距离提升随机梯度下降的性能。
摘要由CSDN通过智能技术生成

随机梯度下降的下界与性能提升

1. 随机梯度下降的下界

考虑一个一维空间上的函数 f ( x ) = E [ 1 2 ( x − ξ ) 2 ] f(x)=\mathbb{E}\left[\frac{1}{2}(x-\xi)^2\right] f(x)=E[21(xξ)2],其中 ξ ∼ N ( 0 , 1 ) \xi \sim\mathcal{N}(0,1) ξN(0,1)。基于随机梯度下降方法,得到更新规则 x t + 1 = x t − γ t ( x t − ξ t ) x_{t+1}=x_t-\gamma_t(x_t-\xi_t) xt+1=xtγt(xtξt)。设 x 1 = 0 , γ t = 1 t x_1=0, \gamma_t=\frac{1}{t} x1=0,γt=t1,那么列出 x 1 x_1 x1 x t + 1 x_{t+1} xt+1的等式,消元后得到 x t + 1 = 1 t ∑ t = 1 t ξ t x_{t+1}=\frac{1}{t}\sum\limits_{t=1}^{t}\xi_t xt+1=t1t=1tξt
所以可以得到 x t + 1 ∼ N ( 0 , 1 t ) x_{t+1}\sim \mathcal{N}(0,\frac{1}{t}) xt+1N(0,t1)。由期望与方差之间的等式关系 E [ x 2 ] = V a r [ x ] + E [ x ] 2 \mathbb{E}[x^2]=Var[x]+\mathbb{E}[x]^2 E[x2]=Var[x]+E[x]2得到 f ( x ) = 1 2 ( x 2 + 1 ) f(x)=\frac{1}{2}(x^2+1) f(x)=21(x2+1),并且 x ∗ = 0 x_*=0 x=0。所以 E [ ∥ x t + 1 − x ∗ ∥ 2 2 ] = 1 t \mathbb{E}[\|x_{t+1}-x_*\|_2^2]=\frac{1}{t} E[xt+1x22]=t1
为了能够分析非光滑的随机优化问题,引入
Stochastic Oracle:给定输入 x x x,stochastic oracle 返回 G ( x , ξ ) G(x,\xi) G(x,ξ),且 E [ G ( x , ξ ) ] ∈ ∂ f ( x ) , E [ ∥ G ( x , ξ ) ∥ p 2 ] ≤ M 2 \mathbb{E}[G(x,\xi)]\in \partial f(x),\mathbb{E}[\|G(x,\xi)\|_p^2]\leq M^2 E[G(x,ξ)]f(x),E[G(x,ξ)p2]M2
在1983年Nemirovski与Yudin的Problem complexity and method efficiency in optimization 中,在最坏的情况下,对于凸问题,stochastic oracles至少需要的次数为 T = O ( 1 ϵ 2 ) T=O(\frac{1}{\epsilon^2}) T=O(ϵ21),而对于强凸的问题,stochastic oracles需要的最少的次数为 T = O ( 1 ϵ ) T=O(\frac{1}{\epsilon}) T=O(ϵ1)

2. 随机镜像下降(Stochastic Mirror Descent)

镜像下降的随机近似方法被用于处理非光滑的问题。设 w ( x ) w(x) w(x)是一个连续可微的函数,并且对于一些norm是 l − s t r o n g l y    c o n v e x l-strongly\ \ convex lstrongly  co

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值