机器学习之优化算法（二）之梯度下降及收敛性分析

最新推荐文章于 2025-02-05 23:17:16 发布

deardao

最新推荐文章于 2025-02-05 23:17:16 发布

阅读量8.8k

点赞数 5

分类专栏：深度学习人工智能优化文章标签：优化优化算法梯度下降机器学习凸优化

本文链接：https://blog.csdn.net/liangdaojun/article/details/100919139

版权

深度学习同时被 3 个专栏收录

13 篇文章

订阅专栏

人工智能

13 篇文章

订阅专栏

优化

5 篇文章

订阅专栏

本文深入探讨了梯度下降法的原理，包括确定性和随机性优化算法的区别，以及梯度下降法的数学推导过程。文章详细分析了梯度下降法的收敛性，介绍了如何通过调整步长η来优化算法性能，以及在强凸和光滑条件下，梯度下降法的快速收敛特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优化算法

在这里插入图片描述
上图中，可以看出，确定性优化算法和随即优化算法是有明显的分界线的。如果加上分布式集群上的实现方式，就可以分为同步或异步的算法。从梯度下降（GD）后，20世纪50年代，各种一阶算法井喷，其中 SGD 也是这个时候的产物。

对算法的分析可以分为一阶的还是二阶的，对偶的还是非对偶的，确定的还是随机的。
在这里插入图片描述

梯度下降

梯度下降（GD）是柯西（Cauchy ）大神的1847年提出的。其基本思想是：最小化目标函数在当前状态的一阶泰勒展开，从而近似地优化目标函数本身 :
$f(w^*) =min\{ f(w_t) + \nabla f(w_t)^T(w^*-w_t)\} \quad \quad (1)$
假设 $w=w_{t+1}$ ，因为 $w_t-w_{t+1}$ 是一个小的矢量，因为太大的话（1）式就不成立了（泰勒公式），注意，这里 $f(w_t)$ 是已知的。假设 $w_t-w_{t+1}=\eta v$ ，其中 $v$ 是单位向量，因为 $w_{t+1}$ 的方向不确定，这里 $v$ 的方向也式不确定的（即我们确定了 $v$ ， $w_{t+1}$ 的方向也就确定了）。于是，（1）式可以表示为：
$f(w_{t+1}) = min f(w_t) +min \nabla \eta v f(w_t)^T \quad \quad (2)$
这里，我们需要让 $f(w_{t+1}) = f(w_t)<0$ （最小化目标函数，也是梯度下降的目的）， $\eta>0$ 的小的常数，于是，得到：
$v\nabla f(w_t)^T<0 \quad \quad (3)$
我们需要最小化（3）式。这里，求两个向量的乘积小于零，代表其方向相反，为使得（2）式右端最小，可以取 $v$ 为：
$v=-\frac{\nabla f(w_t)}{||f(w_t)||} \quad \quad (4)$
（上式可根据： $A\cdot B=||A|| \cdot ||B|| cos\alpha$ ，取 $\alpha=-1$ ）
这里，将（4）式中的 $||\nabla f(w_t)||$ 合并到常数项 $\eta$ 中。根据 $w_t-w_{t+1}=\eta v$ ，于是得到梯度下降法的更新规则如下：
$w_{t+1}=w_{t}-\eta \nabla f(w_t) \quad \quad (5)$

在推出梯度下降规则（5）的过程中，用到了假设 $w_t-w_{t+1}=\eta v$ ，这个假设其实有某些限制条件，即 $w_t$ 的所有分量都在 $v$ 方向上减少 $\eta$ 得到 $w_{t+1}$ ，即限制了 $w_{t+1}$ 的空间，即只能在某个方向上变动，因为梯度下降是一维曲线，这样的假设是合理的。还有，在这里将 $||\nabla f(w_t)||$ 合并到常数项 $\eta$ 中有个问题， $||\nabla f(w_t)||$ 是梯度的范数，它是变化的，合并后我们还使用固定常数 $\eta$ ，就造成了（5）式不严格成立。所以，常用的梯度下降也是变步长的！ 因为没有归一化梯度，这其实符合实际，因为梯度大时，就多走一段距离，小时就少走一点。其实，关于 $\eta$ 真的有好多工作要做！这也是一系列自适应算法的由来。
将其代入上式，得：
$f(w_t)-f(w_{t+1})=\eta \nabla f(w_t)^T \nabla f(w_t) \quad \quad (6)$
这里，得到一个奇怪的结论，因为等式（3）右边是梯度的内积乘以一个常数，所以是大于零的。所以得到： $f(w_t)-f(w_{t+1})>0$ 一定成立，也就是使用梯度下降法梯度一定是下降的！为什么会这样呢？//TODO 想明白了再解决这些谬论。

收敛性分析

对于（5）式中的 $\eta$ ，我们要做一些限制，从而使得目标函数（1）式是收敛的。
关于函数的各种性质的定义参见机器学习之优化算法（一）之损失函数，这篇文章里有函数性质（Lipschitz连续、凸、光滑）的定义。

收敛性

这里用变量 $x$ 代替参数 $w$ 。这里，考察第 t 步迭代 $x_t$ 与 $x^*$ 的距离。
假设目标函数 $f$ 是 $R^d$ 上的凸函数，并且 $\beta-$ 光滑。当步长 $η=\frac{1}{\beta}$ 时，梯度下降法是收敛的。
根据梯度下降公式（5）有：
$||x_{t+1}-x^*||^2=||x_t-\eta\nabla f(x_t)-x^*||^2 \quad \quad (7)$
等式右边开平方得：
$||x_{t+1}-x^*||^2=||x_t-x^*||^2 - 2\eta\nabla f(x_t)^T(x_t-x^*)+\eta^2||\nabla f(x_t)||^2 \quad \quad (8)$
根据 $\beta-$ 平滑性质2有：
$f(x_t)-f(x^*) \leq \nabla f(x_t)^T(x_t-x^*)-\frac{1}{2\beta}||\nabla f(x_t)-\nabla f(x^*)||^2 \quad \quad (9)$
因为 $x^*$ 为最终解， $\nabla f(x^*)=0, f(x_t)>f(x^*)$ ，代入（9）式得到：
$-\nabla f(x_t)^T(x_t-x^*) \leq -\frac{1}{2\beta}||\nabla f(x_t)||^2 \quad \quad (10)$
将（10）代入（8）得到：
$||x_{t+1}-x^*||^2 \leq ||x_t-x^*||^2-\frac{\eta}{\beta}||\nabla f(x_t)||^2 + \eta^2||\nabla f(x_t)||^2$
$=||x_t-x^*||^2-\eta\left(\frac{1}{\beta}-\eta\right)||\nabla f(x_t)||^2 \quad \quad (11)$
所以，当 $\eta <\frac{1}{\beta}$ 时，上式是收敛的。

最优解

这里，考察第 t 步迭代 $f(x_t)$ 与 $f(x^*)$ 的距离，我们要最小化这个距离，即损失最小。

由 $\beta-$ 光滑性质1，有：
$f(x_{t+1})-f(x_t)\leq \nabla f(x_t)^T(f(x_{t+1})-f(x_t))+\frac{\beta}{2}||x_{t+1}-x_t||^2$
$=-\eta||\nabla f(x_t)||^2-\frac{\beta}{2}\eta^2||\nabla f(x_t)||^2=-\eta(1-\frac{\beta\eta}{2})||\nabla f(x_t)||^2 \quad \quad (12)$
将 $f(x^*)$ 代入（12）得：
$[f(x_{t+1})-f(x^*)]\leq [f(x_t)-f(x^*)]-\eta(1-\frac{\beta\eta}{2})||\nabla f(x_t)||^2 \quad \quad (13)$
根据凸函数的性质，有：
$f(x_{t})-f(x^*)\leq \nabla f(x_t)^T(x_t-x^*) \leq ||\nabla f(x_n)||\cdot ||x_n-x^*||$ ，即：
$-||\nabla f(x_t)|| \leq -\frac{f(x_{t})-f(x^*)}{||x_t-x^*||} \quad \quad (14)$
将（14）代入（13）得：
$[f(x_{t+1})-f(x^*)]\leq [f(x_t)-f(x^*)]-\eta(1-\frac{\beta\eta}{2})\frac{[f(x_{t})-f(x^*)]^2}{||x_t-x^*||^2} \quad \quad (15)$

两边同除 $f(x_{t+1})-f(x^*)][f(x_t)-f(x^*)]$ 得：
$\frac{1}{f(x_t)-f(x^*)} \leq \frac{1}{f(x_{t+1})-f(x^*)}+\frac{\eta(1-\frac{\beta\eta}{2})}{||x_0-x^*||^2}\frac{f(x_{t})-f(x^*)}{f(x_{t+1})-f(x^*)} \quad \quad (16)$
由 $\frac{f(x_{t})-f(x^*)}{f(x_{t+1})-f(x^*)}>1$ ，并由 $x_0-x^*||^2>||x_t-x^*||^2$ 替换掉 $x_t$ 得：
$\frac{1}{f(x_t)-f(x^*)} \leq \frac{1}{f(x_{t+1})-f(x^*)}+\frac{\eta(1-\frac{\beta\eta}{2})}{||x_0-x^*||^2} \quad \quad (17)$
对（17）从 0 累加到 T-1 得：
$\frac{1}{f(x_t)-f(x^*)}-\frac{1}{f(x_0)-f(x^*)} \geq \frac{1}{||x_0-x^*||^2} t \eta(1-\frac{\beta\eta}{2}) \quad \quad (18)$
左边第二项是正数：
$\frac{1}{f(x_t)-f(x^*)} \geq \frac{1}{||x_0-x^*||^2} t \eta(1-\frac{\beta\eta}{2})$ ，即：
$f(x_t)-f(x^*) \leq ||x_0-x^*||^2\cdot \frac{1}{\eta(1-\frac{\beta\eta}{2})} \cdot \frac{1}{t} \quad \quad (19-1)$
如果，每步的 $\eta$ 不同，设为 $\eta_t$ ，这里（19）就变成了：
$f(x_t)-f(x^*) \leq ||x_0-x^*||^2\cdot \frac{1}{\sum_{t=0}^{t=n-1} \eta_t(1-\frac{\beta\eta_t}{2})} \cdot \quad \quad (19-2)$
这里，我们需要计算一个级数 $\sum_{t=0}^{t=n-1} \eta_t(1-\frac{\beta\eta_t}{2})$ 的收敛性分析了，而且这个级数越大越好，分析见推论2。

这里，我们使用（19-1），那么我们希望使得（19-1）取最小（损失最小），即 $\eta(1-\frac{\beta\eta}{2})$ ，取最大值，即 $\eta=\frac{1}{\beta}$ 时，可以使得总体loss最小。

推论1：由（19-2）得：
$f(x_t)-f(x^*) \leq \frac{ 2\beta||x_0 - x^*||^2}{ t-1} \quad \quad (20)$
该算法的收敛率为 $\Theta(1/T)$ 。
推论2：由（19-1），假设 $\eta_t$ 满足 $\sum_{t=1}^{t=T}\eta_t=\infty$ ，而且 $\sum_{t=1}^{t=T} {\eta_t}^2=\infty$ 。那么，梯度下降可以收敛到全局最优点。当级数 $\eta_t=1/t$ 时，注意，该级数时发散的（ $\sum_{t=1}^{t=T}1/k=\infty$ ）！
$f(x_t)-f(x^*) \leq \Theta\left(\frac{1}{\log(t)}\right){|| x_0 - x^*||^2} \quad \quad (21)$
可以看出，随着步长 $\eta_t$ 减少，我们可以不对 $\beta$ 进行要求，而且 $\sum_{t=1}^{t=T} {\eta_t}^2=\infty$ 也只是充分不必要的。这里，我们需要级数 $\sum_{t=0}^{t=n-1} \eta_t(1-\frac{\beta\eta_t}{2})$ 对于 t 是定义良好的。例如：当 $\eta_t=1/log(t)$ 时，可以得到 (by approximating the sum by a Riemannian integral)：

$\displaystyle \sum_{t=0}^{T-1} \eta_t\left( 1-\frac{\beta \eta_t}{2}\right) \sim \frac{\beta T}{2\log(T)} \quad \quad (22)$
由（19-2），得到：
$\displaystyle f(x_n)-f(x^*) \preceq \frac{2\log(n) || x_0 - x^*|| ^2}{ \beta n} \quad \quad (23)$
这样，就产生了 $l o g (T)$ 的收敛率，而不是 $1 / T$ ，如下图：
在这里插入图片描述

总步数

这里，我们假设优化算法从 $x_0$ 开始，而且损失依赖于初始点和最优点之间的距离，假设两点之间的距离半径为 $R$ 。当 $\eta=1/\beta$ 时，将得到：
$\displaystyle \begin{array}{rcl} f(x_n) -f(x^*) &\leq & \frac{2\beta R ^2}{(n-1)} \le \epsilon \end{array}$
$\displaystyle \begin{array}{rcl} \epsilon &\geq & \frac{2\beta R ^2}{(n-1)}\\ n-1 &\geq & \frac{2\beta R ^2}{}\\ n &\geq & \frac{2\beta R ^2}{\epsilon}\end{array} \quad \quad (24)$

（24）表明最小步长为 $\frac{2\beta R^2}{\epsilon}$ ，而该结果的收敛性直接依赖 Lipschiz 常数 $\beta$ 、据初始点的距离和容忍集是否可逆。
注意：

Lipschiz 连续一般都假设在凸优化的基础上。
$\beta-$ 光滑，凸都不能单独保证有好的收敛率，而 $\alpha-$ 强凸则可以保证有较快的收敛率。
梯度下降算法和数据的维度有线性关系。

$\alpha-$ 强凸

最优值

引理1：如果 f 即是 ${\beta-}$ 光滑又是 ${\alpha}-$ 强凸. 对于 ${\forall x,y \in {\mathbb R}^n}$ ，
$\displaystyle \begin{array}{rcl} (\nabla f(x) -\nabla f(y))^T \geq \frac{\alpha\beta ||x-y||^2}{\alpha + \beta} + \frac{||\nabla f(x) - \nabla f(y)||^2}{\alpha +\beta}. \end{array} \quad \quad (25)$
定理1：假设 ${f}$ 是 ${\beta}$ -光滑和 ${\alpha}$ -强凸函数。那么，GD的步长 ${\eta_t \leq 2/(\alpha+\beta)}$ 满足：
$\displaystyle f \left( x_t \right) - p^* \leq \frac{\beta}{2} \prod_{t=1}^T \left( 1 - \frac{2\eta_t \alpha \beta}{\alpha + \beta} \right) \Vert x_0 - x^* \Vert^2 \quad \quad (26)$

证明：将公式梯度下降公式（5）代入 ${\beta}$ -光滑的性质（1）（参考这里）式 $|f(x)-f(y)-\nabla f(y)^T(x-y) | \leq \frac{\beta}{2}||x-y||^2$ 的条件中，得：

$\displaystyle f \left( x_k \right) \leq f \left( x^* \right) + \nabla f \left( x^* \right)^T \left( x_k - x^* \right) + \frac{\beta}{2} \Vert x_k - x^* \Vert ^2 \quad \quad (27)$
根据最优点的梯度 $\nabla f(x^*)=0$ ，则(27) 得：
$\displaystyle f \left( x_k \right) - f \left( x^* \right) \leq \frac{\beta}{2} \Vert x_k -x^* \Vert ^2 \ \ \ \ \ (28)$
${\Vert x_{t+1} - x^* \Vert^2}$ 服从等式（8），即:
$\displaystyle \begin{array}{rcl} \Vert x_{t+1} - x^* \Vert^2 = \Vert x_t - x^* \Vert^2 + \eta_t^2 \Vert \nabla f \left( x_t \right) \Vert^2 -2\eta_t \nabla f \left( x_t \right)^T\left( x_t - x* \right) \end{array} \quad \quad (8-2)$

使用引理等式（25）和 $\nabla f(x^*)=0$ 得：
$\displaystyle \Vert x_{t+1} - x^* \Vert^2 \leq \Vert x_t - x^* \Vert^2 + \eta_t^2 \Vert \nabla f \left( x_t \right) \Vert^2 -2\eta_t \left( \frac{\alpha \beta}{\alpha + \beta} \Vert x_t - x^* \Vert^2 + \frac{\Vert \nabla f \left( x_t \right) \Vert^2}{\alpha + \beta} \right) \quad \quad (29)$
化简得：
$\displaystyle \begin{array}{rcl} \Vert x_{t+1} - x^* \Vert^2 \leq& \left( 1 - 2\eta_t \frac{\alpha \beta}{\alpha + \beta} \right) \Vert x_t - x^* \Vert^2 + \eta_t \left( \eta_t - \frac{2}{\alpha + \beta} \right) \Vert\nabla f \left( x_t \right) \Vert^2 \end{array} \quad \quad (30)$
因为 ${\eta_t <\frac{2}{\alpha + \beta}}$ ，将右手边（RHS）得最后一项忽略，可以得到：
$\displaystyle \Vert x_{t+1} - x^* \Vert^2 \leq\left( 1 - 2\eta_t \frac{\alpha \beta}{\alpha + \beta} \right) \Vert x_t - x^* \Vert^2 \quad \quad (31)$
对 $t$ 进行迭代，得：
$\displaystyle \Vert x_t - x^* \Vert ^2 \leq \Vert x_0 - x^* \Vert ^2 \prod_{t=1}^T \left( 1 - \frac{2\eta_t \alpha \beta}{\alpha + \beta} \right) \quad \quad (32)$
将式（32）代入 $\beta-$ 光滑条件 (28)，可得式（26），定理得证。

收敛率

根据 $\leq \exp (-x)}$ ，定理1 可以改写为下式：
$\displaystyle f \left( x_k \right) - p^* \leq \frac{\beta}{2} \Vert x_0 - x^* \Vert^2 e^{-\frac{2\alpha\beta}{\alpha+\beta}\sum_{t=1}^T \eta_t} \ \ \ \ \ \ \ \ \ \ (33)$

引理2：如果GD算法得步长为 $\eta=\frac{2}{\alpha+\beta}$ ，在 ${\beta-}$ 光滑又是 ${\alpha}-$ 强凸条件下，满足：
$\displaystyle \begin{array}{rcl} f \left( x_t \right) - p^* &\leq \frac{\beta}{2} \left( \frac{Q_f - 1}{Q_f + 1} \right)^{2t} \Vert x_0 - x^* \Vert^2 \\ &\leq \frac{\beta}{2} \exp \left( - \frac{4t}{Q_f+1} \right) \Vert x_0 - x^* \Vert^2 \end{array} \ \ \ \ \ \ (34)$
这里， ${Q_f = \frac{\beta}{\alpha}}$ 为条件数。
证明：将 $\eta=\frac{2}{\alpha+\beta}$ 代入定理1，式（26），得：
$\displaystyle \begin{array}{rcl} f \left( x_t \right) - p^* &\leq \frac{\beta}{2} \prod_{t=1}^T \left( 1 - \frac{2\eta_t \alpha \beta}{\alpha + \beta} \right) \Vert x_0 - x^* \Vert^2 \\ &= \frac{\beta}{2} \left( 1 - \frac{2}{Q_f+1} \right)^{2t} \Vert x_0 - x^* \Vert^2 \\ & \leq \frac{\beta}{2} \exp \left( \frac{-4t}{Q_f+1} \right) \Vert x_0 - x^* \Vert^2 \end{array} \ \ \ \ \ \ (35)$

得证。引理2说明在强凸和固定步长下，GD可以取得指数级得收敛率。但在凸分析中， $\exp (-x)$ 是线性收敛率（linear convergence）， $\exp (\exp(-x))$ 是二次收敛率（quadratic convergence）。可以看出，收敛率取决于条件数 ${Q_f = \frac{\beta}{\alpha}}$ ：大的条件数有小的收敛率。

逐步缩小步长
引理3： $\eta_t<c/t$ ，其他条件不变，得：
$\displaystyle f(x_t)- p^* \leq \frac{\beta}{2 t^{\frac{2c\alpha\beta}{\alpha+\beta}}}\|x_0 -x^*\|^2 \quad \quad (36)$
证明：将代入式（33），根据 ${\sum_{t=1}^T 1/t \sim \log(t)}$ ，可得：

$\displaystyle f \left( x_t \right) - p^* \leq \frac{\beta}{2} \Vert x_0 - x^* \Vert^2 e^{-\frac{2c\alpha\beta}{\alpha+\beta} \log(t)} \quad \quad (37)$
由（37）可得（36）。
该引理说明，随着 $c$ 的增加，GDA可以取得多项式的收敛率。但对于太大的 $c$ ，在初始阶段可能违反 $\eta_t<\frac{2}{\alpha+\beta}$ 。尽管算法在初始阶段可能会变慢，但对于大的 $t$ ，收敛率仍然可以由引理（3）给出： ${\frac{c}{k} < 2/(\alpha+\beta)}$ 。

当目标函数是强凸函数时，梯度下降法的收敛速率是线性的;当目标函数是凸函数时，其收敛速率是次线性的。也就是说，强凸性质会大大提高梯度下降法的收敛速率。进一步地，强凸性质越好(即 $\alpha$ 越大) ，条件数 $Q$ 越小，收敛越快。
光滑性质在凸和强凸两种情形下都会加快梯度下降法的收敛速率，即 $\beta$ 越小(强凸情形下，条件数 $Q$ 越小 ) ，收敛越快。

这里，只分析了 GD 的收敛性，并没有分析在仅仅 Lipschitz 连续 (非凸) 下的情况，需要将梯度下降等式（5）代入 Lipschitz 连续的条件，然后逐项相加，分析T步的收敛情况，得到关于步长 $\eta_t$ 的级数，通过对该级数分析，就可以得到其最好最坏的收敛率，这种情况下的收敛率大概是次线性的（subliner convergence）。

其实，收敛率是由 $f$ 决定的，但对 $\eta_t$ 级数的设计和修改可以加快收敛速度。