凸优化简介25

最新推荐文章于 2024-12-02 09:18:01 发布

qq_36573282

最新推荐文章于 2024-12-02 09:18:01 发布

阅读量508

点赞数

文章标签：凸优化

本文链接：https://blog.csdn.net/qq_36573282/article/details/105652714

版权

本文介绍了随机梯度下降的下界分析，探讨了随机镜像下降方法及其收敛性，以及如何通过减少方差、自适应步长和自适应Bregman距离提升随机梯度下降的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

随机梯度下降的下界与性能提升

随机梯度下降的下界与性能提升

1. 随机梯度下降的下界

考虑一个一维空间上的函数 $f(x)=\mathbb{E}\left[\frac{1}{2}(x-\xi)^2\right]$ ，其中 $\xi \sim\mathcal{N}(0,1)$ 。基于随机梯度下降方法，得到更新规则 $x_{t+1}=x_t-\gamma_t(x_t-\xi_t)$ 。设 $x_1=0, \gamma_t=\frac{1}{t}$ ，那么列出 $x_1$ 至 $x_{t+1}$ 的等式，消元后得到 $x_{t+1}=\frac{1}{t}\sum\limits_{t=1}^{t}\xi_t$ 。
所以可以得到 $x_{t+1}\sim \mathcal{N}(0,\frac{1}{t})$ 。由期望与方差之间的等式关系 $\mathbb{E}[x^2]=Var[x]+\mathbb{E}[x]^2$ 得到 $f(x)=\frac{1}{2}(x^2+1)$ ，并且 $x_*=0$ 。所以 $\mathbb{E}[\|x_{t+1}-x_*\|_2^2]=\frac{1}{t}$ 。
为了能够分析非光滑的随机优化问题，引入
Stochastic Oracle：给定输入 $x$ ，stochastic oracle 返回 $G(x,\xi)$ ，且 $\mathbb{E}[G(x,\xi)]\in \partial f(x),\mathbb{E}[\|G(x,\xi)\|_p^2]\leq M^2$ 。
在1983年Nemirovski与Yudin的Problem complexity and method efficiency in optimization 中，在最坏的情况下，对于凸问题，stochastic oracles至少需要的次数为 $T=O(\frac{1}{\epsilon^2})$ ，而对于强凸的问题，stochastic oracles需要的最少的次数为 $T=O(\frac{1}{\epsilon})$ 。