文章目录
随机梯度下降的下界与性能提升
1. 随机梯度下降的下界
考虑一个一维空间上的函数 f ( x ) = E [ 1 2 ( x − ξ ) 2 ] f(x)=\mathbb{E}\left[\frac{1}{2}(x-\xi)^2\right] f(x)=E[21(x−ξ)2],其中 ξ ∼ N ( 0 , 1 ) \xi \sim\mathcal{N}(0,1) ξ∼N(0,1)。基于随机梯度下降方法,得到更新规则 x t + 1 = x t − γ t ( x t − ξ t ) x_{t+1}=x_t-\gamma_t(x_t-\xi_t) xt+1=xt−γt(xt−ξt)。设 x 1 = 0 , γ t = 1 t x_1=0, \gamma_t=\frac{1}{t} x1=0,γt=t1,那么列出 x 1 x_1 x1至 x t + 1 x_{t+1} xt+1的等式,消元后得到 x t + 1 = 1 t ∑ t = 1 t ξ t x_{t+1}=\frac{1}{t}\sum\limits_{t=1}^{t}\xi_t xt+1=t1t=1∑tξt。
所以可以得到 x t + 1 ∼ N ( 0 , 1 t ) x_{t+1}\sim \mathcal{N}(0,\frac{1}{t}) xt+1∼N(0,t1)。由期望与方差之间的等式关系 E [ x 2 ] = V a r [ x ] + E [ x ] 2 \mathbb{E}[x^2]=Var[x]+\mathbb{E}[x]^2 E[x2]=Var[x]+E[x]2得到 f ( x ) = 1 2 ( x 2 + 1 ) f(x)=\frac{1}{2}(x^2+1) f(x)=21(x2+1),并且 x ∗ = 0 x_*=0 x∗=0。所以 E [ ∥ x t + 1 − x ∗ ∥ 2 2 ] = 1 t \mathbb{E}[\|x_{t+1}-x_*\|_2^2]=\frac{1}{t} E[∥xt+1−x∗∥22]=t1。
为了能够分析非光滑的随机优化问题,引入
Stochastic Oracle:给定输入 x x x,stochastic oracle 返回 G ( x , ξ ) G(x,\xi) G(x,ξ),且 E [ G ( x , ξ ) ] ∈ ∂ f ( x ) , E [ ∥ G ( x , ξ ) ∥ p 2 ] ≤ M 2 \mathbb{E}[G(x,\xi)]\in \partial f(x),\mathbb{E}[\|G(x,\xi)\|_p^2]\leq M^2 E[G(x,ξ)]∈∂f(x),E[∥G(x,ξ)∥p2]≤M2。
在1983年Nemirovski与Yudin的Problem complexity and method efficiency in optimization 中,在最坏的情况下,对于凸问题,stochastic oracles至少需要的次数为 T = O ( 1 ϵ 2 ) T=O(\frac{1}{\epsilon^2}) T=O(ϵ21),而对于强凸的问题,stochastic oracles需要的最少的次数为 T = O ( 1 ϵ ) T=O(\frac{1}{\epsilon}) T=O(ϵ1)。
2. 随机镜像下降(Stochastic Mirror Descent)
镜像下降的随机近似方法被用于处理非光滑的问题。设 w ( x ) w(x) w(x)是一个连续可微的函数,并且对于一些norm是 l − s t r o n g l y c o n v e x l-strongly\ \ convex l−strongly co