无约束优化中的梯度方法收敛速度分析-CSDN博客

本文链接：https://blog.csdn.net/tiger00O/article/details/131537900

\section{无约束梯度方法收敛速度分析}
\subsection{strongly convex and smooth}
$\begin{array}{rl} \operatorname{minimize}_x & f(\boldsymbol{x}) \\ \text { subject to } & \boldsymbol{x} \in \mathbb{R}^n \end{array}$
全文假设目标函数 $f(\boldsymbol{x})$ 满足L-Smooth 条件，也就是说我们有
emma (descent lemma): Let $\mathbb{E} \rightarrow(-\infty, \infty]$ be an $L$ -smooth function $\geq 0)$ over a given convex set $D$ . Then for any $\mathbf{x}, \mathbf{y} \in D$ ,
$f(\mathbf{y}) \leq f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{x}-\mathbf{y}\|^2$
$\begin{aligned} f\left(\mathbf{x}^{t+1}\right) & \leq \min _{\mathbf{y} \in \mathbb{R}^n}\left\{f\left(\mathbf{x}^t\right)+\left\langle\nabla f\left(\mathbf{x}^t\right), \mathbf{y}-\mathbf{x}^t\right\rangle+\frac{L}{2}\left\|\mathbf{y}-\mathbf{x}^t\right\|^2\right\} \\ & =f\left(\mathbf{x}^t\right)-\frac{1}{2 L}\left\|\nabla f\left(\mathbf{x}^t\right)\right\|_2^2 \end{aligned}$
这表明目标函数是非增的序列。

$\mathbf{y}=\mathbf{x}^t-\frac{1}{L} \nabla f\left(\mathbf{x}^t\right)$
目标函数满足 strongly convex and smooth
当函数还满足Strongly Convex 时，
$\begin{aligned} f\left(\mathbf{x}^*\right) & \geq \min _{\mathbf{y} \in \mathbb{R}^n}\left\{f\left(\mathbf{x}^t\right)+\left\langle\nabla f\left(\mathbf{x}^t\right), \mathbf{y}-\mathbf{x}^t\right\rangle+\frac{\mu}{2}\left\|\mathbf{y}-\mathbf{x}^t\right\|^2\right\} \\ & =f\left(\mathbf{x}^t\right)-\frac{1}{2 \mu}\left\|\nabla f\left(\mathbf{x}^t\right)\right\|_2^2 \end{aligned}$
我们有 $\mu\left(f\left(\mathbf{x}^t\right)-f\left(\mathbf{x}^*\right)\right) \leq\left\|\nabla f\left(\mathbf{x}^t\right)\right\|_2^2$ ，这也被成为 polyak-Lojasiewicz $(\mathrm{PL})$ 条件。注意到满足强凸条件的函数会满足PL条件，反之则不一定成立。
把 $(2)$ 代入 (1), 我们有
$\begin{aligned} f\left(\mathbf{x}^{t+1}\right)-f\left(\mathbf{x}^*\right) & \leq f\left(\mathbf{x}^t\right)-f\left(\mathbf{x}^*\right) \frac{1}{2 L}\left\|\nabla f\left(\mathbf{x}^t\right)\right\|_2^2 \\ & \leq f\left(\mathbf{x}^t\right)-\frac{\mu}{L}\left(f\left(\mathbf{x}^t\right)-f\left(\mathbf{x}^*\right)\right) \\ & \leq\left(1-\frac{\mu}{L}\right)\left(f\left(\mathbf{x}^t\right)-f\left(\mathbf{x}^*\right)\right) \end{aligned}$
迭代地利用上面的关系我们可以得到 $f\left(\mathbf{x}^t\right)-f\left(\mathbf{x}^*\right) \leq\left(1-\frac{\mu}{L}\right)^t\left(f\left(\mathbf{x}^0\right)-f\left(\mathbf{x}^*\right)\right)$ .

\subsection{convex and smooth}

下面我们证明 claim 1
$\begin{aligned} & \left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2=\left\|\boldsymbol{x}^t-\boldsymbol{x}^*-\frac{1}{L} \nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\underbrace{\frac{2}{L}\left\langle\boldsymbol{x}^t-\boldsymbol{x}^*, \nabla f\left(\boldsymbol{x}^t\right)-\nabla f\left(\boldsymbol{x}^*\right)\right\rangle}_{\geq \frac{2}{L^2}\left\|\nabla f\left(\boldsymbol{x}^t\right)-\nabla f\left(\boldsymbol{x}^*\right)\right\|_2^2(\operatorname{smooth}+\mathrm{cvx})}+\frac{1}{L^2}\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & \leq\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\frac{2}{L^2}\left\|\nabla f\left(\boldsymbol{x}^t\right)-\nabla f\left(\boldsymbol{x}^*\right)\right\|_2^2+\frac{1}{L^2}\left\|\nabla f\left(\boldsymbol{x}^t\right)-\nabla f\left(\boldsymbol{x}^*\right)\right\|_2^2 \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\frac{1}{L^2}\|\nabla f\left(\boldsymbol{x}^t\right)-\underbrace{\nabla f\left(\boldsymbol{x}^*\right)}_{=0}\|_2^2 \end{aligned}$
另一个简单的思路
$\begin{aligned} & \left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2=\left\|\boldsymbol{x}^t-\boldsymbol{x}^*-\eta \nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\underbrace{2 \eta\left\langle\boldsymbol{x}^t-\boldsymbol{x}^*, \nabla f\left(\boldsymbol{x}^t\right)\right\rangle}_{\geq 2 \eta\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right)(\text { smooth }+\mathrm{cvx})}+\eta^2\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & \leq\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-2 \eta\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right)+\eta^2 \underbrace{\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2}_{\leq 2 L\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right)} \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\left(2 \eta-2 L \eta^2\right)\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right) \end{aligned}$

As a result, we obtain
$f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right) \leq \frac{1}{2 \eta-2 L \eta^2}\left(\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2\right) .$
Let $\eta=\frac{1}{2 L}$ . Summing up from 0 to $T - 1$ , we obtain
$\frac{1}{T} \sum_{t=0}^{T-1}\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right) \leq \frac{4 L\left\|\boldsymbol{x}_0-\boldsymbol{x}^*\right\|_2^2}{T}$

再紧一点 *
$\begin{aligned} & \left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2=\left\|\boldsymbol{x}^t-\boldsymbol{x}^*-\eta \nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\underbrace{2 \eta\left\langle\boldsymbol{x}^t-\boldsymbol{x}^*, \nabla f\left(\boldsymbol{x}^t\right)\right\rangle}_{\geq 2 \eta\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)+\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}_t\right)\right\|^2\right)(\text { smooth }+\mathrm{cvx})}+\eta^2\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & \leq\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-2 \eta\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right)-\left(\frac{\eta}{L}-\eta^2\right) \underbrace{\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2} \\ & \stackrel{\eta=\frac{1}{L}}{=}\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\frac{2}{L}\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right) \end{aligned}$
因此，我们有
$f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right) \leq \frac{L}{2}\left(\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2\right) .$
Summing up from 0 to $T - 1$ , we obtain
$\frac{1}{T} \sum_{t=0}^{T-1}\left(f\left(\boldsymbol{x}_t\right)-f\left(\boldsymbol{x}_*\right)\right) \leq \frac{L\left\|\boldsymbol{x}_0-\boldsymbol{x}^*\right\|_2^2}{2 T}$
\subsection{smooth and nonconvex}

我们不能期望找到有效的全局最优解。假设我们对任何 (近似) Stationary Point都满意。这意味着我们的目标仅仅是找到一个要点 $x$ 满足 $\|\nabla f(\boldsymbol{x})\|_2 \leq \varepsilon \quad$ (called $\varepsilon$ -approximate stationary point )
$\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}^k\right)\right\|_2^2 \leq f\left(\boldsymbol{x}^k\right)-f\left(\boldsymbol{x}^{k+1}\right), \quad \forall k$
求和 from $k = 0$ to $k = t - 1$ :
$\begin{aligned} \frac{1}{2 L} \sum_{k=t_0}^{t-1}\left\|\nabla f\left(\boldsymbol{x}^k\right)\right\|_2^2 & \leq \sum_{k=0}^{t-1}\left(f\left(\boldsymbol{x}^k\right)-f\left(\boldsymbol{x}^{k+1}\right)\right)=f\left(\boldsymbol{x}^0\right)-f\left(\boldsymbol{x}^t\right) \\ & \leq f\left(\boldsymbol{x}^0\right)-f\left(\boldsymbol{x}^*\right) \\ \Longrightarrow & \min _{0 \leq k<t}\left\|\nabla f\left(\boldsymbol{x}^k\right)\right\|_2 \leq \sqrt{\frac{2 L\left(f\left(\boldsymbol{x}^0\right)-f\left(\boldsymbol{x}^*\right)\right)}{t}} \end{aligned}$
\subsection{Regularity Condition}
From another perspective
$\begin{aligned} \left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^*\right\|_2^2 & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*-\frac{1}{L} \nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2 \\ & =\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2+\frac{1}{L^2}\left\|\nabla f\left(\boldsymbol{x}^t\right)\right\|_2^2-\frac{2}{L}\left\langle\boldsymbol{x}^t-\boldsymbol{x}^*, \nabla f\left(\boldsymbol{x}^t\right)\right\rangle \\ & \leq\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2-\frac{\mu}{L}\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2 \\ & =\left(1-\frac{\mu}{L}\right)\left\|\boldsymbol{x}^t-\boldsymbol{x}^*\right\|_2^2 \end{aligned}$
这样我们同样可以得到linear convergence rate, 为了让 (i) 成立，我们需要
$\left\langle\nabla f(\boldsymbol{x}), \boldsymbol{x}-\boldsymbol{x}^*\right\rangle \geq \frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^*\right\|_2^2+\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_2^2, \quad \forall \boldsymbol{x}$
这被称为 Regularity Condition，可以隐约感觉到这个条件是强凸性和光滑性组合的结果，这表明这个条件会比强凸性和光滑性弱。下面给出证明:
$\begin{aligned} & 0 \leq f\left(\boldsymbol{x}^{+}\right)-f\left(\boldsymbol{x}^*\right)=f\left(\boldsymbol{x}^{+}\right)-f(\boldsymbol{x})+f(\boldsymbol{x})-f\left(\boldsymbol{x}^*\right) \\ & \leq \underbrace{\nabla f(\boldsymbol{x})^{\top}\left(\boldsymbol{x}^{+}-\boldsymbol{x}\right)+\frac{L}{2}\left\|\boldsymbol{x}^{+}-\boldsymbol{x}\right\|_2^2}_{\text {smoothness }}+\underbrace{\nabla f(\boldsymbol{x})^{\top}\left(\boldsymbol{x}-\boldsymbol{x}^*\right)-\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^*\right\|_2^2}_{\text {strong convexity }} \\ & =\nabla f(\boldsymbol{x})^{\top}\left(\boldsymbol{x}^{+}-\boldsymbol{x}^*\right)+\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_2^2-\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^*\right\|_2^2 \\ & =\nabla f(\boldsymbol{x})^{\top}\left(\boldsymbol{x}^{+}-\boldsymbol{x}+\boldsymbol{x}-\boldsymbol{x}^*\right)+\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_2^2-\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^*\right\|_2^2 \\ & =\nabla f(\boldsymbol{x})^{\top}\left(\boldsymbol{x}-\boldsymbol{x}^*\right)-\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_2^2-\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^*\right\|_2^2, \\ & \end{aligned}$
移项就可以得到 $(R L)$ 条件。

\subsection{Nonsmooth case}

非光滑的话，我们研究次梯度方法的收敛性。次梯度的迭代为:
$x^{k+1}=x^k-\alpha_k g^k, g^k \in \partial f\left(x^k\right)$
非光滑对于收敛性是及其不友好的，并且次梯度方向都不能保证是一个下降方向。在光滑的情况下，只要 $\alpha_k$ 选的足够小 (取决于光滑系数 $L_g$ ），再不济也能保证每步的函数值能够下降，通常是通过线搜索来完成。而次梯度由于不是下降方向，就没有这个性质了，也就是说不能保证单调下降。接下来，我分两个情况来讨论收敛性: 1.Convex。2. Strongly convex。
1.1.convex case
定理1.1 (Nonsmooth + convex) 如果函数 $f$ 是凸的且是Lipschitzness的。对于迭代方法 (1.1)，步长选择策略为: $\alpha_k=\frac{f\left(x^k\right)-f^*}{\left\|g^k\right\|^2}$ 如果 $g^k \neq 0$ ，否则 $\alpha_k=1$ 。那么我们有:

$\left\|x^{k+1}-x^*\right\|^2 \leq\left\|x^k-x^*\right\|^2$
$f^k \rightarrow f^*$ as $\rightarrow \infty$
$f_{\text {best }}^n-f^* \leq \frac{L_f\left\|x^0-x^*\right\|}{\sqrt{n+1}}$ ，其中， $f_{\text {best }}^n=\min _k\left\{f\left(x^k\right), k=1, \cdots, n\right\}$
Proof: 根据 (0.6)，我们令 $x=x^*$ 得到:
$\begin{aligned} \left\|x^{k+1}-x^*\right\|^2 & =\left\|x^k-x^*\right\|^2-2 \alpha_k\left\langle g^k, x^k-x^*\right\rangle+\alpha_k^2\left\|g^k\right\|^2 \\ & \leq\left\|x^k-x^*\right\|^2-2 \alpha_k\left(f\left(x^k\right)-f^*\right)+\alpha_k^2\left\|g^k\right\|^2 \\ & =\left\|x^k-x^*\right\|^2-\frac{\left(f\left(x^k\right)-f^*\right)^2}{\left\|g^k\right\|^2} \end{aligned}$
第一个不等式用了凸性，第二个等式用了步长代入，第二个不等式用到了函数的Lipschitzness。从上式可以得出定理中第一条满足。然后我们对上式做累加
$\begin{aligned} \frac{1}{L_f^2} \sum_{k=0}^n\left(f\left(x^k\right)-f^*\right)^2 & \leq \sum_{k=0}^n\left\{\left\|x^k-x^*\right\|^2-\left\|x^{k+1}-x^*\right\|^2\right\} \\ & =\left\|x^0-x^*\right\|^2-\left\|x^{n+1}-x^*\right\|^2 \end{aligned}$
系数移一下:
$\sum_{k=0}^n\left(f\left(x^k\right)-f^*\right)^2 \leq L_f^2\left\|x^0-x^*\right\|^2$
根据右边有界，我们得到 $f^k \rightarrow f^*$ as $\rightarrow \infty$ 。最后
$(n+1)\left(f_{b e s t}^k-f^*\right)^2 \leq \sum_{k=0}^n\left(f\left(x^k\right)-f^*\right)^2 \leq L_f^2\left\|x^0-x^*\right\|^2$
移项开根号便得到了定理第三部分。证毕
Remark：这个步长的选择叫做 “Polyak’ s stepsize”，这个步长里面涉及到了函数的最优值，这在实际运算是不被允许的，除非那种我们事先知道最优值的问题（求最优解 $x^*$ 满足 $f\left(x^*\right)=f^*$ ) ; 另外还有其他的步长策略，我就不说了，证明类似。