Armijo条件，Wolfe条件，Goldstein条件

最新推荐文章于 2024-02-03 22:18:45 发布

muyuu

最新推荐文章于 2024-02-03 22:18:45 发布

阅读量7.2k

点赞数 42

分类专栏：数学工具文章标签：线性代数

本文链接：https://blog.csdn.net/muyuu/article/details/120098335

版权

数学工具专栏收录该内容

6 篇文章 0 订阅

订阅专栏

线搜索

对于迭代式 $x_{k+1} = x_k +\alpha p_k$ ，其中 $p_k$ 是由梯度法，牛顿法，CG法等方法计算出的下降方向， $\alpha$ 是下降的步长。

寻找最优值 $\alpha = {\underset {\alpha}{\operatorname {min} }} f(x_k + \alpha p_k)$ 的过程称为精确搜索
如果只是想找到一个 $\alpha$ 使得 $f(x_k + \alpha p_k)$ 相对于 $f(x_k)$ 有足够的下降，那么这样的过程称为非精确搜索

非精确线搜索（Armijo条件，Wolfe条件，Goldstein条件）

Armijo条件

要求 $f(x_k + \alpha p_k)$ 相对于 $f(x_k)$ 有足够的下降，可以写作：
$f(x_k + \alpha p_k) \leq f(x_k) + c_1\alpha \nabla f(x_k)^T p_k$
因为 $f(x_k)^T p_k < 0$ ，所以要求 $c_1 > 0$ ，但如果 $c_1 \geq 1$ 那么对于某些函数（例如强凸函数）就找不到满足不等式的解。因此上式中 $c_1 \in (0,1)$ 。

记 $\phi(\alpha) = f(x_k + \alpha p_k), l(\alpha) = f(x_k) + c_1\alpha \nabla f(x_k)^T p_k$ ，那么Armijo条件框定的范围如下：
在这里插入图片描述
实际应用中， $c_1$ 一般取得很小，例如 $c_1 = 10^{-4}$

curvature条件

从上图不难发现只要 $\alpha$ 足够小就会满足Armijo条件，但这样会导致下降的量不够大，为了避免 $\alpha$ 取过小的值，又有了下面的的curvature条件：
$\nabla f(x_k + \alpha_k p_k)^T p_k \geq c_2 \nabla f(x_k)^T p_k$
其中 $c_2 \in (c_1, 1)$ 。

如果满足上式， $\nabla f(x_k + \alpha_k p_k)^T p_k$ 要么是轻微的负值（表明 $x_k + \alpha_k p_k$ 已经趋于极小值附近），要么是正值（表明 $x_k + \alpha_k p_k$ 已经越过了极小值），那么此时停止线搜索是合理的
如果不满足上式， $\nabla f(x_k + \alpha_k p_k)^T p_k$ 就是负得比较多的负值，那么说明在 $p_k$ 方向 $f$ 还有比较大的下降空间，可以继续搜索更优的 $\alpha$ 值

上式等价于 $\phi'(\alpha_k) \geq c_2 \phi'(0)$ ，因此curvature条件框住的范围为：

在这里插入图片描述
由上图可以看出curvature条件可以避开很小的 $\alpha$ 。一般情况如果 $p_k$ 是Newton或者quasi-Newton法求得的方向，那么 $c_2 = 0.9$ ，如果 $p_k$ 是非线性CG法求得的，那么 $c_2 = 0.1$ 。

Wolfe条件，强Wolfe条件

Wolfe条件 = Armijo条件 + curvature条件
$\begin{aligned} f(x_k + \alpha_k p_k) &\leq f(x_k) + c_1\alpha_k \nabla f(x_k)^T p_k\\ \nabla f(x_k + \alpha_k p_k)^T p_k &\geq c_2 \nabla f(x_k)^T p_k \end{aligned}$
其中 $0< c_1 < c_2 < 1$

但Wolfe条件找到的 $\alpha$ 有可能离极小值较远，比如：
在这里插入图片描述
因此又提出了强Wolfe条件:
$\begin{aligned} f(x_k + \alpha_k p_k) &\leq f(x_k) + c_1\alpha_k \nabla f(x_k)^T p_k\\ |\nabla f(x_k + \alpha_k p_k)^T p_k| &\leq c_2 |\nabla f(x_k)^T p_k| \end{aligned}$
与Wolfe条件相比，强Wolfe条件不允许 $\phi'(\alpha_k)$ 正得太大，也就是不能越过极小值太远。

(Wolfe条件存在性定理)假设 $\mathbb{R^n} \rightarrow \mathbb{R}$ 连续可微， $p_k$ 是 $x_k$ 处的下降方向，并且 $f$ 在 $\{x_k + \alpha p_k | \alpha > 0\}$ 上有下界。如果 $0 < c_1 < c_2 <1$ ，那么存在一个步长区间即满足Wolfe条件也满足强Wolfe条件

Proof：因为 $\phi(\alpha) = f(x_k + \alpha p_k)$ 有下界，而 $l(\alpha) = f(x_k) + c_1\alpha \nabla f(x_k)^T p_k$ 是无界减函数，因此 $l(\alpha)$ 和 $\phi(\alpha)$ 一定有交点。记 $\alpha'$ 为最小的交点，那么有：
$f(x_k + \alpha' p_k) = f(x_k) + c_1\alpha' \nabla f(x_k)^T p_k$
并且对所有小于 $\alpha'$ 的值，Armijo条件都成立。

又由中值定理，存在 $\alpha'' \in (0, \alpha')$ 使得：
$f(x_k + \alpha' p_k) - f(x_k) = \alpha' \nabla f(x_k + \alpha'' p_k)^T p_k$
$\Rightarrow \nabla f(x_k + \alpha'' p_k)^T p_k = c_1 f(x_k)^T p_k \geq c_2 f(x_k)^T p_k$
因此 $\alpha''$ 满足Wolfe条件，又由f的连续可微性， $\alpha''$ 的领域也满足Wolfe条件， $c_1 f(x_k)^T p_k$ 又是负值，因此该区间也满足强Wolfe条件，得证。

Goldstein条件

Goldstein条件如下：
$f(x_k) + (1-c)\alpha_k \nabla f(x_k)^T p_k \leq f(x_k + \alpha_k p_k) \leq f(x_k) + c\alpha_k \nabla f(x_k)^T p_k$
其中 $0 < c < 1 / 2$

上式的右边即为Armijo条件，而左边是为了避免找到的 $\alpha$ 太小：
在这里插入图片描述
但Goldstein条件的问题是它左边的不等式有可能会将所有的极小值点排除在外。一般情况下Goldstein条件常用于Newton-type方法，但不适用于quasi-Newton方法

Backtracking线搜索

因为Wolfe条件的实现比较复杂，如果只是为了解决Armijo条件可能取值太小的问题，我们可以使用Backtracking线搜索：
在这里插入图片描述
只要初始的 $\overline{\alpha}$ 取得足够大，那么Backtracking线搜索方法就可以找到一个足够大的满足Armijo条件的 $\alpha$ 。

强Wolfe条件线搜索算法

如果要使用Wolfe条件来搜索步长，[3]中提供了如下两步式算法：
在这里插入图片描述
算法解释如下：

如果 $\phi(\alpha_i) > \phi(0) + c_1 \alpha_i \phi'(0)$ （即 $\alpha_i$ 不满足Armijo条件）；或者 $\phi(\alpha_i) > \phi(\alpha_{i-1})$ ；或者 $\phi'(\alpha_i) \geq 0$ 均说明 $\alpha_i$ 已经越过了极小值点 $\phi(\alpha)$ 开始上升了，因此区间 $(\alpha_{i-1}, \alpha_i)$ 包含了满足强Wolfe条件的点，则转入zoom算法在区间 $(\alpha_{i-1}, \alpha_i)$ 中寻找符合条件的 $\alpha$
如果 $\phi(\alpha_i) \leq \phi(0) + c_1 \alpha_i \phi'(0)$ 并且 $|\phi'(\alpha_i)| \leq -c_2\phi'(0)$ ，那么 $\alpha_i$ 即是满足强Wolfe条件的步长，搜索停止
若上述都不符合，则迭代重复以上。一般这个位置会设置一个最大迭代次数，避免线搜寻陷在某一步一直出不来