牛顿法和拟牛顿法介绍

格兰芬多_未名

已于 2024-04-20 20:46:17 修改

阅读量1.6k

点赞数 25

分类专栏：凸优化文章标签：算法

于 2024-01-04 15:03:54 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/135387242

版权

凸优化专栏收录该内容

6 篇文章 1 订阅

订阅专栏

最优化笔记，主要参考资料为《最优化：建模、算法与理论》

文章目录

一、经典牛顿法
- （1）迭代格式
- （2）收敛性
二、拟牛顿法
参考资料

梯度法仅仅依赖函数值和梯度的信息（即一阶信息），如果函数 $f (x)$ 充分光滑，则可以利用二阶导数信息构造下降方向 $d^k$ ．牛顿类算法就是利用二阶导数信息来构造迭代格式的算法．由于利用的信息变多，牛顿法的实际表现可以远好于梯度法，但是它对函数 $f (x)$ 的要求也相应变高．

一、经典牛顿法

（1）迭代格式

对于可微二次函数 $f (x)$ ,考虑目标函数 $f$ 在点 $x_k$ 的二阶泰勒展开
$f\left(x^k+d^k\right)=f\left(x^k\right)+\nabla f\left(x^k\right)^{\mathrm{T}}d^k+\frac12\left(d^k\right)^{\mathrm{T}}\nabla^2f\left(x^k\right)d^k+o\left(\left\|d^k\right\|^2\right).$
忽略高阶项 $o\left(\|d^k\|^2\right)$ ,那么我们可以将右边表达式近似为 $f\left(x^k+d^k\right)$ ，通常我们是需要求 $\min f$ ，那么我们可以将等式右边看作 $d^k$ 的函数并极小化（极小化右边等价于极小化 $f\left(x^k+d^k\right)$ ，二阶近似），对等式右边关于 $d^k$ 求导得

$\nabla^2f\left(x^k\right)d^k=-\nabla f\left(x^k\right). \quad (1)$

方程(1)被称为牛顿方程， $d^k$ 被称为牛顿方向。若 $\nabla^2f\left(x^k\right)$ 非奇异，则可以得到 $d^k$ 的显示表达式，可构造迭代格式
$x^{k+1}=x^k-\alpha_k\nabla^2f\left(x^k\right)^{-1}\nabla f\left(x^k\right). \quad (2)$
其中 $\alpha_k$ 为步长，当步长 $\alpha_k=1$ 时迭代格式(2)被称为经典牛顿法。

（2）收敛性

截屏2024-01-04 14.02.58

经典牛顿法是收敛速度很快的算法，但它的收敛是有条件的：

初始点 $x_0$ 必须距离问题的解充分近，即牛顿法只有局部收敛性，当 $x_0$ 距问题的解较远时，牛顿算法在多数情况下会失效；
第二，海瑟矩阵 $\nabla^2f(x)$ 需要为正定矩阵.

下面给出经典牛顿法收敛性的证明.

从牛顿法的定义（1）和最优值点 $x^*$ 的性质 $\nabla f\left(x^*\right)=0$ 可得
$\begin{aligned} x^{k+1}-x^* & =x^k-\nabla^2 f\left(x^k\right)^{-1} \nabla f\left(x^k\right)-x^* \\ & =\nabla^2 f\left(x^k\right)^{-1}\left[\nabla^2 f\left(x^k\right)\left(x^k-x^*\right)-\left(\nabla f\left(x^k\right)-\nabla f\left(x^*\right)\right)\right] . \end{aligned}$

我们把后面一项凑出二阶导的格式，由常见的积分技巧可得
$\nabla f\left(x^k\right)-\nabla f\left(x^*\right)=\int_0^1 \nabla^2 f\left(x^k+t\left(x^*-x^k\right)\right)\left(x^k-x^*\right) \mathrm{d} t,$

因此我们有估计
$\begin{aligned} & \left\|\nabla^2 f\left(x^k\right)\left(x^k-x^*\right)-\left(\nabla f\left(x^k\right)-\nabla f\left(x^*\right)\right)\right\| \\ = & \left\|\int_0^1\left[\nabla^2 f\left(x^k+t\left(x^*-x^k\right)\right)-\nabla^2 f\left(x^k\right)\right]\left(x^k-x^*\right) \mathrm{d} t\right\| \\ \leqslant & \int_0^1\left\|\nabla^2 f\left(x^k+t\left(x^*-x^k\right)\right)-\nabla^2 f\left(x^k\right)\right\|\left\|x^k-x^*\right\| \mathrm{d} t \\ \leqslant & \left\|x^k-x^*\right\|^2 \int_0^1 L t \mathrm{~d} t \\ = & \frac{L}{2}\left\|x^k-x^*\right\|^2, \end{aligned}$

其中第二个不等式是由于海瑟矩阵的局部利普希茨连续性. 又因为 $\nabla^2 f\left(x^*\right)$ 是非奇异的且 $f$ 二阶连续可微, 因此存在 $r$ , 使得对任意满足 $\left\|x-x^*\right\| \leqslant r$ ，有 $\|\nabla^2f(x)^{-1}\|\leqslant 2\|\nabla^2f(x^*)^{-1}\|$ ，结合上式，可得：
$\begin{aligned} &\left\|x^{k+1}-x^*\right\| \\ & \leqslant\left\|\nabla^2 f\left(x^k\right)^{-1}\right\|\left\|\nabla^2 f\left(x^k\right)\left(x^k-x^*\right)-\left(\nabla f\left(x^k\right)-\nabla f\left(x^*\right)\right)\right\| \\ & \leqslant L\left\|\nabla^2 f\left(x^*\right)^{-1}\right\|\left\|x^k-x^*\right\|^2 . \end{aligned}$ 即：
$\frac{\left\|x^{k+1}-x^*\right\|}{\left\|x^k-x^*\right\|^2 } \leqslant L\left\|\nabla^2 f\left(x^*\right)^{-1}\right\|$ 因此, 当初始点 $x^0$ 满足
$\left\|x^0-x^*\right\| \leqslant \min \left\{\delta, r, \frac{1}{2 L\left\|\nabla^2 f\left(x^*\right)^{-1}\right\|}\right\} \stackrel{\text { def }}{=} \hat{\delta}$ 时, 可保证迭代点列一直处于邻域 $N_{\hat{\delta}}\left(x^*\right)$ 中, 因此 $\left\{x^k\right\} \mathrm{Q}$ -二次收敛到 $x^*$ .

二、拟牛顿法

牛顿法在理论上和实践中均取得很好的效果．然而对于大规模问题，函数的海瑟矩阵计算代价特别大或者难以得到，即便得到海瑟矩阵我们还需要求解一个大规模线性方程组．那么能否使用海瑟矩阵或其逆矩阵的近似来进行牛顿迭代呢？拟牛顿法便是这样的算法，它能够在每一步以较小的计算代价生成近似矩阵，并且使用近似矩阵代替海瑟矩阵而产生的迭代序列仍具有超线性收敛的性质．

拟牛顿方法不计算海瑟矩阵 $\nabla^2f(x)$ , 而是构造其近似矩阵 $B^k$ 或其逆的近似矩阵 $H^k$ . 我们希望 $B^k$ 或 $H^k$ 仍然保留海瑟矩阵的部分性质，例如使得 $d^k$ 仍然为下降方向.