数值计算之线搜索法，Armijo，Wolfe，Goldstein条件，回溯法

最新推荐文章于 2024-05-15 11:43:35 发布

RuiH.AI

最新推荐文章于 2024-05-15 11:43:35 发布

阅读量5.2k

点赞数 5

分类专栏：概率论与机器学习文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/qq_41035283/article/details/122024808

版权

概率论与机器学习专栏收录该内容

50 篇文章 84 订阅

订阅专栏

数值计算之线搜索法，Wolfe conditions

前言
梯度法的步长
线搜索法
非精确线搜索法
回溯法
后记

前言

本篇是基于梯度的优化方法的补充篇

梯度法的步长

梯度下降法、牛顿法、拟牛顿法的主要目的都是求出增量方向。求出增量方向后，如果使用固定步长进行更新，当步长太大导致优化函数与其泰勒展开偏差太大时，可能出现优化函数不降反增的情况，导致迭代不收敛。

因此在获得增量方向后，还需要确定迭代的步长。常用的方法是线搜索法。

线搜索法

线搜索法在求出优化函数 $f(\bf x)$ 在 $\bf x_k$ 的增量方向后，构建以下问题：
$\min_{\alpha} \quad \phi(\alpha)=f({\bf x_k}+\alpha {\bf p_k})$

构造的函数是一元函数，其极值点处的导数为零：
$\phi'(\alpha)=\nabla f^T({\bf x_k}+\alpha{\bf p_k}){\bf p_k}=0$
这样就能获得步长的精确解，也就是所谓的精确线搜索方法。但是实际操作中，如果梯度没有解析式，那么上面这个方程的解的计算是很困难的。

非精确线搜索法

非精确线搜索法不需要找到精确的步长，而是希望找到一个能够使优化函数 $f$ 稳定收敛并且下降速度较快的步长。此时的步长 $\alpha$ 通常存在于一个或数个区间内。

Armijo条件

Armijo条件又被称为充分下降条件，是使得 $f$ 稳定收敛的充分条件，也是最简单的条件。

如下图所示，实线是函数 $\phi(\alpha)=f({\bf x_k}+\alpha {\bf p_k})$ 的图像，虚线 $l(\alpha)$ 表达式为：
$\phi'(\alpha)=\nabla f^T({\bf x_k}+\alpha{\bf p_k}){\bf p_k} \\ \quad \\ l(\alpha)=\phi({0})+c_1\phi'(0)({\bf x-x_k}),0<c_1<1$
由图可以看出，当实线在虚线下方时， $\phi({\alpha})\le\phi({0})$ ，也就是函数必然下降。
在这里插入图片描述
这就是Armijo条件，用表达式来表示就是：
$\phi(\alpha)\le I(\alpha) \\ \quad \\ \to \quad f({\bf x_k}+\alpha {\bf p_k})\le f({\bf x_k})+c_1\alpha\nabla f^T({\bf x_k}){\bf p_k}$

Wolfe条件

Armijo条件有一个问题：虽然能够保证梯度下降，但是当步长 $\alpha$ 极小的时候，必然能够满足Armijo条件，但是下降的速度很慢，而且超小的步长可能导致迭代中的除零错误（Nan）。我们需要保证迭代的每一步都有充分的下降。

如下图所示，如果我们限制 $\phi'(\alpha)\ge c_1\phi'(0)$ ，也就是 $\phi(\alpha)$ 的斜率不够陡，达到相对平缓的区域，就形成了Curvature
在这里插入图片描述
将Armijo条件与Curvature条件合并，就是Wolfe条件，其表达式如下：
$f({\bf x_k}+\alpha {\bf p_k})\le f({\bf x_k})+c_1\alpha\nabla f^T({\bf x_k}){\bf p_k} \\ \quad \\ \nabla f^T({\bf x_k}+\alpha{\bf p_k}){\bf p_k} \ge c_2\nabla f^T({\bf x_k}){\bf p_k} \\ \quad \\ 0<c_1<c_2<1\\$
Wolfe条件如下图所示：
在这里插入图片描述

Goldstein条件

Wolfe条件需要求优化函数的梯度，比较麻烦。于是出现了只需要求优化函数值的Goldstein条件：
$f({\bf x_k})+(1-c_1)\alpha\nabla f^T({\bf x_k}){\bf p_k} \le f({\bf x_k}+\alpha {\bf p_k})\le f({\bf x_k})+c_1\alpha\nabla f^T({\bf x_k}){\bf p_k} \\ 0<c_1<0.5$
Goldstein条件的左边使得步长不会太小，右边保证梯度下降，但是可能出现找不到最优步长的情况，如下图所示。
在这里插入图片描述

回溯法

由于Wolfe条件实现复杂，实际使用中，可以采用回溯法实现Armijo条件或者Goldstein条件，具体流程是：

选择一个初始步长 $\alpha_0$ ，和一个缩小系数 $\rho<1$
把 $\alpha_0$ 代入Armijo条件或者Goldstein条件
如果满足，则 $\alpha=\alpha_0$ ，结束线搜索；否则， $\alpha_0=\rho \alpha_0$ ，回到步骤2

当初始 $\alpha_0$ 比较大时，回溯法搜索到的步长就不会太小。

后记

下篇可能会继续学习共轭梯度法。

RuiH.AI

关注

5
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
数值计算之线搜索法，Armijo，Wolfe，Goldstein条件，回溯法

数值计算之线搜索法，Wolfe conditions前言梯度法的步长线搜索法非精确线搜索法Armijo条件Wolfe条件Goldstein条件回溯法后记前言本篇是基于梯度的优化方法的补充篇梯度法的步长梯度下降法、牛顿法、拟牛顿法的主要目的都是求出增量方向。求出增量方向后，如果使用固定步长进行更新，当步长太大导致优化函数与其泰勒展开偏差太大时，可能出现优化函数不降反增的情况，导致迭代不收敛。因此在获得增量方向后，还需要确定迭代的步长。常用的方法是线搜索法。线搜索法线搜索法在求出优化函数f(x)
复制链接

扫一扫