凸优化简介12

最新推荐文章于 2022-03-04 12:07:46 发布

qq_36573282

最新推荐文章于 2022-03-04 12:07:46 发布

阅读量293

点赞数

文章标签：凸优化

本文链接：https://blog.csdn.net/qq_36573282/article/details/105058297

版权

文章目录

梯度下降加速理论分析

梯度下降加速理论分析

针对凸优化简介11 中最后的算法过程，下面分析 $\lambda_k$ 趋向于0的速度。

定理：如果 $\gamma_0\geq \mu$ ，那么 $\lambda_k\leq \min\{(1-\sqrt{\frac{\mu}{L}})^2, \frac{4L}{(2\sqrt{L}+k\sqrt\gamma_0)^2}\}$

证明：如果 $\gamma_k\geq \mu$ ，那么 $\gamma_{k+1}=La^2_k=(1-a_k)\gamma_k+a_k\mu \geq \mu$ ，因为定理中有条件 $\gamma_0\geq \mu$ ，所以得到 $a_k\geq \sqrt{\frac{\mu}{L}}$ 。由凸优化简介11引理2得到 $\lambda_k=\prod\limits_{i=0}^{k-1}(1-a_i)$ ，因此带入 $a_k\geq \sqrt{\frac{\mu}{L}}$ 得到 $\lambda_k\leq (1-\sqrt{\frac{\mu}{L}})^k$ .
设 $b_k=\frac{1}{\sqrt{\lambda_k}}$ ，因为 $\{\lambda_k\}$ 是一个下降序列，因此可以得到：
$\begin{aligned} &b_{k+1}-b_k=\frac{\sqrt{\lambda_k}-\sqrt{\lambda_{k+1}}}{\sqrt{\lambda_k\lambda_{k+1}}}\\ &=\frac{\lambda_k-\lambda_{k+1}}{\sqrt{\lambda_k\lambda_{k+1}}(\sqrt{\lambda_k}+\sqrt{\lambda_{k+1}})}\\ &\geq \frac{\lambda_k-\lambda_{k+1}}{2\lambda_k\sqrt{\lambda_{k+1}}}\\ &=\frac{\lambda_k-(1-a_k)\lambda_k}{2\lambda_k\sqrt{\lambda_{k+1}}}\\ &=\frac{a_k}{2\sqrt{\lambda_{k+1}}}\\ &\geq \frac{1}{2}\sqrt{\frac{\gamma_0}{L}} \end{aligned}$
因此，可以得到 $b_k\geq 1+\frac{k}{2}\sqrt{\frac{\gamma_0}{L}}$ .

定理：若取 $\gamma_0=L$ ，那么这个过程产生的序列 $\{x_k\}^{\infty}_{k=0}$ ，满足 $f(x_k)-f^*\leq L \min \{(1-\sqrt{\frac{\mu}{L}})^k,\frac{4}{(k+1)^2}\}\|x_0-x^*\|^2$ . 这说明，对于来自 $\mathfrak{F}_{\mu,L}^{1,1}(\mathbb{R}^n)$ 的函数， $\mu \geq 0$ ，其无约束最小化是最优的

证明：我们使用 $f(x_0)-f^*\leq \frac{L}{2}\|x_0-x^*\|^2$ 以及前面的定理得到上面的不等式。
下面是凸优化简介11 最后的算法过程的变种，不同之处在于步长的选择。

选择 $x_0\in \mathbb{R}^n$ ,并且 $\gamma_0 > 0$ ,设 $v_0=x_0$ ;
迭代 $k$ 次：
2.1 从等式 $La_k^2=(1-a_k)\gamma_k+a_k\mu$ 计算得到 $a_k\in(0,1)$ ，设 $\gamma_{k+1}=(1-a_k)\gamma_k+a_k\mu$
2.2 选择 $y_k=\frac{a_k\gamma_kv_k+\gamma_{k+1}x_k}{\gamma_k+a_K\mu}$ ，并计算 $f(y_k)$ 和 $\nabla f(y_k)$ ；
2.3 找到 $x_{k+1}=y_k-\frac{1}{L}\nabla f(y_k)$ ；
2.4 设 $v_{k+1}=\frac{(1-a_k)\gamma_kv_k+a_k\mu y_k-a_k\nabla f(y_k)}{\gamma_{k+1}}$

根据上面算法中的等式，可以尝试消去一些变量。首先消去 $v_k$ 。
$\begin{aligned} &v_{k+1}=\frac{1}{\gamma_{k+1}}\{\frac{1-a_k}{a_k}[(\gamma_k+a_k\mu)y_k-\gamma_{k+1}x_k]+a_k\mu y_k-a_k\nabla f(y_k)\}\\ &=\frac{1}{\gamma_{k+1}}\{\frac{(1-a_k)\gamma_k}{a_k}y_k+\mu y_k\}-\frac{1-a_k}{a_k}x_k-\frac{a_k}{\gamma_{k+1}}\nabla f(y_k)\\ &=x_k+\frac{1}{a_k}(y_k-x_k)-\frac{1}{a_kL}\nabla f(y_k)\\ &=x_k+\frac{1}{a_k}[(y_k-x_k)-\frac{1}{L}\nabla f(y_k)]\\ &=x_k+\frac{1}{a_k}(x_{k+1}-x_k) \end{aligned}$
因此， $y_{k+1}=\frac{1}{\gamma_{k+1}+a_{k+1}\mu}(a_{k+1}\gamma_{k+1}v_{k+1}+\gamma_{k+2}x_{k+1})\\ =x_{k+1}+\frac{a_{k+1}\gamma_{k+1}(v_{k+1}-x_{k+1})}{\gamma_{k+1}+a_{k+1}\mu}\\ =x_{k+1}+\beta_{k}(x_{k+1}-x_{k})$ ，其中 $\beta_{k}=\frac{a_{k+1}\gamma_{k+1}(1-a_k)}{a_k(\gamma_{k+1}+a_{k+1}\mu)}$ .
接着消去 ${v_k\}$ ，使用等式 $a^2_{k}L=(1-a_k)\gamma_k+\mu a_k\equiv \gamma_{k+1}$ 。因此， $\beta_k=\frac{a_{k+1}\gamma_{k+1}(1-a_k)}{a_k(\gamma_{k+1}+a_{k+1}\mu)}=\frac{a_{k+1}\gamma_{k+1}(1-a_k)}{a_k(\gamma_{k+1}+a^2_{k+1}L-(1-a_{k+1})\gamma_{k+1})}=\frac{\gamma_{k+1}(1-a_k)}{a_k(\gamma_{k+1}+a_{k+1}L)}=\frac{a_k(1-a_k)}{a^2_{k}+a_{k+1}}$ .
因此，上面的算法过程可以写成下面的形式：

选择 $x_0\in \mathbb{R}^n$ 且 $a_0\in (0,1)$ 。设置 $y_0=x_0$ , $q=\frac{\mu}{L}$
迭代 $k$ 次
2.1 计算 $f(y_k)$ 和 $\nabla f(y_k)$ ，设 $x_{k+1}=y_k-\frac{1}{L}\nabla f(y_k)$
2.2 从等式 $a^2_{k+1}=(1-a_{k+1})a^2_{k}+qa_{k+1}$ 计算 $a_{k+1}\in (0,1)$ ，且设置 $\beta_k=\frac{a_k(1-a_k)}{a^2_{k}+a_{k+1}}$ ， $y_{k+1}=x_{k+1}+\beta_k(x_{k+1}-x_k)$ .

定理：如果在上面的过程中， $a_0\geq \sqrt{\frac{\mu}{L}}$ ，那么 $f(x_k)-f^*\leq \min\{(1-\sqrt{\frac{\mu}{L}})^k, \frac{4L}{(2\sqrt{L}+k\sqrt{\gamma_0})^2}\}\cdot[f(x_0-f^*+\frac{\gamma_0}{2}\|x_0-x^*\|^2)]$ ，其中 $\gamma_0=\frac{a_0(a_0L-\mu)}{1-a_0}$ 。

如果选择 $a_0=\sqrt{\frac{\mu}{L}}$ 对应于选择 $\gamma_0=\mu$ ，那么算法里面 $a_k=\sqrt{\frac{\mu}{L}}, \beta_k=\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}-\sqrt{\mu}}$ 。那么算法里面，迭代过程中， $x_{k+1}=y_k-\frac{1}{L}\nabla f(y_k)$ ， $y_{k+1}=x_{k+1}+\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}(x_{k+1}-x_{k})$ . 这种方案就是 Nesterov在1983年提出的。论文链接
此外还有 Polyak 在 1964年提出的heavy-ball方案论文链接：
$x_{t+1}=x_t-a\nabla f(x_t)+\beta (x_t-x_{t-1})$ ，取 $a=\frac{4}{\sqrt{L}+\sqrt{\mu}},\beta=(\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}})^2$ 。迭代中的更新规则为 $x_{t+1}=y_t-\frac{4}{(\sqrt{L}+\sqrt{\mu})^2}f(y_t),y_{t+1}=x_{t+1}+(\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}})^2(x_{t+1}-x_t)$ .
Beck 和 Teboulle 在 2009年提出的 FISTA方案论文链接：
$x_{t+1}=y_t-\frac{1}{L}\nabla f(y_t), y_{t+1}=x_{t+1}+\frac{\lambda_t-1}{\lambda_t}(x_{t+1}-x_t)$ . 并且对于所有的 $\geq 0$ ， $\lambda_0=0, \lambda_{t+1}=\frac{1+\sqrt{1+4\lambda_t^2}}{2}$