强凸光滑性质及其收敛性

tiger00O

于 2023-07-04 16:29:25 发布

阅读量1.7k

点赞数 1

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/tiger00O/article/details/131537853

版权

文章讨论了L-平滑函数的性质，包括L-平滑的定义、下降引理以及它如何影响函数值与最小值的差距。接着介绍了强凸函数的概念，强调了它们如何确保更快的收敛性，并提到了Polyak-Lojasiewicz不等式，该不等式在梯度下降法中的重要性。最后，简要说明了如何利用这些性质证明梯度下降法的收敛性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

\section{L-Smooth and Stongly Convex}
\subsection{L-Smooth}
Definition(L-smoothness): Let $\geq 0$ . A function $\mathbb{E} \rightarrow(-\infty, \infty]$ is said to be $L$ smooth over a set $\subseteq \mathbb{E}$ if it is differentiable over $D$ and satisfies
$\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_* \leq L\|\mathbf{x}-\mathbf{y}\| \text { for all } \mathbf{x}, \mathbf{y} \in D$
The constant $L$ is called the smoothness parameter, and $\|\cdot\|_*$ denotes the dual norm on the dual space $\mathbb{E}^*$ .

根据这个定义，我们可以为满足L-Smooth性质的函数出一个上界，这个上界是一个二次函数，这个性质经常出现在收敛性的推导中出现，被称为Descent Lemma。
Lemma (descent lemma): Let $\mathbb{E} \rightarrow(-\infty, \infty]$ be an $L$ -smooth function $\geq 0)$ over a given convex set $D$ . Then for any $\mathbf{x}, \mathbf{y} \in D$ ,
$f(\mathbf{y}) \leq f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{x}-\mathbf{y}\|^2$

Intuition 1: 通过观察图片，可以得发现原函数的最小会小于上界函数的最小 (对 $(b)$ 左右两边同时取最小)
$\begin{aligned} f\left(\mathbf{x}^*\right) & =\min _{\mathbf{y} \in \mathbb{R}^n} f(\mathbf{y}) \leq \min _{\mathbf{y} \in \mathbb{R}^n}\left\{f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{y}-\mathbf{x}\|^2\right\} \\ & =\min _{r \geq 0}\left\{f(\mathbf{x})-r\|\nabla f(\mathbf{x})\|_*+\frac{L}{2} r^2\right\} \\ & =f(\mathbf{x})-\frac{1}{2 L}\|\nabla f(\mathbf{x})\|_*^2 \end{aligned}$

(1)表明 $f(\mathbf{x})-f\left(\mathbf{x}^*\right) \geq \frac{1}{2 L}\|\nabla f(\mathbf{x})\|_*^2$ , 也就是说：

当某个点的函数值与其最小值之间的差距小的时候，梯度不一定小；
而梯度小的时候, 函数值与最小值的差距会比较小。
注意到上面这个不等式对任意满足L-Smooth 的函数都成立，考虑函数 $\phi(y)=f(y)-\left\langle\nabla f\left(x_0\right), y\right\rangle$ ，这也是一个L-Smooth 函数，因此我们代入 $(1)$ ，可以得到另一个很常用的等价于 $(a)$ 的L-Smooth 性质如下:
$f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle \geq \frac{1}{2 L}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2$
另外，对 $(a)$ 使用generalized Cauchy-Schwarz inequality，
$\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle \leq L\|\mathbf{x}-\mathbf{y}\|^2$
交换 $(c)$ 中 $\mathbf{x}, \mathbf{y}$ 的位置可以得到如下关系:
$\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle \geq \frac{1}{L}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2$
这五个性质 $(a) - (e)$ 是等价的，在上面的推导中给出了 $\rightarrow(b) \rightarrow(c) \rightarrow(e)$ ,很明显 $(e)$ 可以通过generalized Cauchy-Schwarz inequality得到。事实上我们可以把 $(d)$ 揷在 $(a) (b)$ 之间形成逻辑上的闭环 $\rightarrow(d) \rightarrow(b) \rightarrow(c) \rightarrow(e) \rightarrow(a)$ 。

\subsection{Stongly Convex}

将在L-Smooth 部分得到的所有不等式变换方向并且将 $L$ 替换为 $\mu$ 就得到了Strongly Convex 函数满足的性质:
一阶条件:
$\begin{aligned} f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle & \geq \frac{\mu}{2}\|\mathbf{x}-\mathbf{y}\|^2 \\ \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle & \geq \mu\|\mathbf{x}-\mathbf{y}\|^2 \\ \|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_* & \geq \mu\|\mathbf{x}-\mathbf{y}\| \\ f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle & \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 \\ \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle & \leq \frac{1}{\mu}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 \end{aligned}$

\subsection{Polyak-Lojasiewicz 不等式}
另外我们还会有 $f(\mathbf{x})-f\left(\mathbf{x}^*\right) \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})\|_*^2$ ,
也就是说：当某个点的梯度小的时候，函数值与最小值的差距会比较小，有时我们把梯度的范数当作终止的判断条件。
我们称 $f(\mathbf{x})-f\left(\mathbf{x}^*\right) \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})\|_*^2$ 为
polyak-Lojasiewicz $(\mathrm{PL})$ 条件。注意到满足强凸条件的函数会满足PL条件，反之则不成立。

如果满足以下条件，则称函数满足 Polyak-Lojasiewicz 不等式:
$\|\nabla f(x)\|^2 \geq \mu\left(f(x)-f^*\right) \forall x$
其中 $f^*$ 是最小函数值。
这意味着梯度范数的增长速度至少与函数值远离最优函数值的速度一样快。
此外，这意味着 $f (x)$ 的每个稳态点都是全局最小值。

梯度下降
梯度下降更新只是朝着负梯度的方向迈出了一步：
$x_{k+1}=x_k-\eta \nabla f\left(x_k\right)$
我们现在准备证明在 PL不等式下梯度下降的收敛性，即Karimi等人的定理1。
重新排列梯度下降更新会有所不同
$x_{k+1}-x_k=-\eta \nabla f\left(x_k\right)$
在二次上界条件下使用梯度下降更新规则（来自梯度的Lipschitz连续性），我们得到
$\begin{aligned} f\left(x_{k+1}\right) & \leq f\left(x_k\right)+\left\langle\nabla f\left(x_k\right), x_{k+1}-x_k\right\rangle+\frac{L}{2}\left\|x_{k+1}-x_k\right\|^2 \\ & =f\left(x_k\right)+\left\langle\nabla f\left(x_k\right),-\eta \nabla f\left(x_k\right)\right\rangle+\frac{L}{2}\left\|-\eta \nabla f\left(x_k\right)\right\|^2 \\ & =f\left(x_k\right)-\eta\left\|\nabla f\left(x_k\right)\right\|^2+\eta^2\left(\frac{L}{2}\right)\left\|\nabla f\left(x_k\right)\right\|^2 \\ & =f\left(x_k\right)+\left(-\eta+\eta^2\left(\frac{L}{2}\right)\right)\left\|\nabla f\left(x_k\right)\right\|^2 \\ \rightarrow f\left(x_{k+1}\right)-f\left(x_k\right) & \leq\left(-\eta+\eta^2\left(\frac{L}{2}\right)\right)\left\|\nabla f\left(x_k\right)\right\|^2 \end{aligned}$
如果选择步长以使右侧的系数为负，则使用 Polyak-Lojasiewicz 不等式可以得到

如果选择步长以使右侧的系数为负，则使用 Polyak-Lojasiewicz 不等式可以得到
$f\left(x_{k+1}\right)-f\left(x_k\right) \leq\left(-\eta+\frac{\eta^2 L}{2}\right) \mu\left(f\left(x_k\right)-f^*\right)$
允许步长的范围为 $[0, 2/ L]$ ，步长为 $1/ L$ 时达到的最佳速率。在此选择下，我们获
$f\left(x_{k+1}\right)-f\left(x_k\right) \leq-\frac{\mu}{2 L}\left(f\left(x_k\right)-f^*\right)$
将 $f\left(x_{-} k\right)-f^*$ 添加到两侧得到
$f\left(x_{k+1}\right)-f^* \leq\left(1-\frac{\mu}{2 L}\right)\left(f\left(x_k\right)-f^*\right)$
除以 $f\left(x \_k\right)-f^*$ 得到线性 (几何) 收敛率
$\frac{f\left(x_{k+1}\right)-f^*}{f\left(x_k\right)-f^*} \leq 1-\frac{\mu}{2 L}$
这表明当前函数值和最小值之间的差异至少与几何级数的减尔速度一样快，其速率由PL和Lipschitz常数的比率决定。