暴力拆解《Numerical Optimization》之线搜索

最新推荐文章于 2023-07-20 16:11:46 发布

Fiona_ll

最新推荐文章于 2023-07-20 16:11:46 发布

阅读量1.1k

点赞数

分类专栏：数值优化优化最优化文章标签： optimization 优化数值优化最优化线搜索

本文链接：https://blog.csdn.net/lucylove3943/article/details/40852193

版权

数值优化同时被 3 个专栏收录

7 篇文章 3 订阅

订阅专栏

优化

7 篇文章 0 订阅

订阅专栏

最优化

7 篇文章 0 订阅

订阅专栏

这里讨论的是有约束条件的优化问题：

利用线搜索来求解目标函数 $f\left ( x \right )$ 的极值点，主要可以分为以下两步：

1.选定起点 $x_{k}$ ，选择一个方向 $p_{k}$ ，使 $f\left ( x \right )$ 在点 $x_{k}$ 沿 $p_{k}$ 方向函数值下降。

2.在该方向上，选定合适的步长 $\alpha _{k}$ ，使得 $f\left ( x_{k}+\alpha _{k}p_{k} \right )$ 与 $f\left ( x_{k}\right )$ 相比，充分减小。

那么，现在我们来具体讨论如何选择方向 $p_{k}$ 和步长 $\alpha _{k}$ ：

（一）下降方向 $p_{k}$ 的选择

这里介绍四种方法确定 $p_{k}$ ：最速下降方向、牛顿方向、拟牛顿方向、共轭梯度方向。

1.最速下降方向：

将函数 $f\left ( x_{k}+\alpha _{k}p_{k} \right )$ 泰勒展开，保留一次项可得：

$f\left ( x_{k}+\alpha _{k}p_{k} \right ) \approx f\left ( x_{k} \right )+\alpha _{k}p_{k}^{T}\bigtriangledown f\left ( x_{k} \right )$

沿该方向，目标函数 $f\left ( x \right )$ 的函数值下降最快，因此 $p_{k} = -\bigtriangledown f\left ( x_{k} \right )$ 叫做最速下降方向。

下降方向选择 $p_{k} = -\bigtriangledown f\left ( x_{k} \right )$ ，即 $f\left ( x \right )$ 在 $x_{k}$ 点梯度的负方向。

2.牛顿方向：

也还是利用泰勒展开，只是这次是对 $f\left ( x_{k}+p_{k} \right )$ ，保留二次项：

$f\left ( x_{k}+p_{k} \right ) \approx f\left ( x_{k} \right )+p_{k}^{T}+\frac{1}{2}p_{k}^{T}\bigtriangledown ^{2}f_{k}p_{k}$

要选择 $p_{k}$ ，使 $f\left ( x_{k}+p_{k} \right )$ 最小。显而易见，最简单的方法就是对 $p_{k}$ 求导，令：

$\frac{f\left ( x_{k}+\alpha _{k} \right )}{\partial p_{k}}=0$

由此可以推出：

$p_{k}=-\left ( \bigtriangledown^{2} f_{k} \right )^{-1}\bigtriangledown f_{k}$

注意：

a.在实用牛顿方向的时候有个前提，那就是 $\bigtriangledown ^{2}f_{k}$ 必须正定，也就是 $f\left ( x \right )$ 在在 $x_{k}$ 点处所对应的Hessian矩阵必须正定。如果不正定的话， $f\left ( x_{k}+p_{k} \right )$ 的值可能会减小。

b.我们在推导牛顿方向的过程中的过程中，牛顿方向 $p_{k}=-\left ( \bigtriangledown^{2} f_{k} \right )^{-1}\bigtriangledown f_{k}$ 不是对 $f\left ( x_{k}+\alpha _{k}p_{k} \right )$ 进行泰勒展开推导的，而是对 $f\left ( x_{k}+p_{k} \right )$ 进行展开推导而来的，所以我们推导出来的牛顿方向所对应的 $\alpha _{k}$ 就等于1。

3.拟牛顿方向

由于Hessian矩阵计算起来比较麻烦，而且真实的Hessian矩阵有可能不正定，所以我们采用矩阵 $B_{k}$ 来近似Hessian矩阵：

$f\left ( x_{k}+p_{k} \right )= f_{k}+{p_{k}}^{T}\bigtriangledown f_{k}+\frac{1}{2}{p_{k}}^{T}\left ( B_{k} \right )^{-1}p_{k}$

类似的，可以推出：

$p_{k}= -\left ( B_{k} \right )^{-1}\bigtriangledown f_{k}$

4.共轭梯度方向

$p_{k}= -\bigtriangledown f_{k}+\beta _{k}p_{k-1}$

取 $\beta _{k}$ 使得 $p_{k}$ ， $p_{k-1}$ 共轭。

上面四种方法在求极值的时候，其收敛速度为牛顿法>拟牛顿法>共轭梯度法>最速下降法。

（二）如何选择步长

原则：让目标函数 $f\left ( x \right )$ 的值充分降低，并且计算代价小。

我们提供三种方法来选择 $\alpha$ ：Wolfe条件，强Wolfe条件，Goldstein条件。

1.Wolfe条件：

目标函数充分减小条件：

Amijo条件： $f\left ( x_{k}+\alpha p_{k} \right )\leqslant f\left ( x_{k} \right )+c_{1}\alpha \bigtriangledown f_{k}p_{k},c_{1}\in (0,1)$

为了减少计算代价，我们应该排除较小的步长，用曲率条件来过滤掉较小的步长，将 $\alpha$ 限制在一个合理的范围内：

$\bigtriangledown f(x_{k}+\alpha _{k}p_{k})^{T}\geqslant c_{2}\bigtriangledown f_{k}p_{k},c_{2}\in (c_{1},1)$

上面这个式子所表示的意思是：当 $x$ ， $p$ 固定时，把 $f\left ( x+\alpha p \right )$ 看做关于 $\alpha$ 的函数的函数，假设我们记作 $\varphi (\alpha )$ ，那么式子的左边就是函数在 $\alpha =\alpha _{k}$ 处的倒数，而式子的右边就是函数 $\varphi (\alpha )$ 在 $\alpha =0$ 点处的倒数的 $c_{2}$ 倍。