高斯牛顿法与列文伯格-马夸尔特

Wqyaism

已于 2023-11-07 21:58:51 修改

阅读量69

点赞数

文章标签：算法

于 2023-11-01 09:05:41 首次发布

本文链接：https://blog.csdn.net/Wqyaism/article/details/134153592

版权

4. ¹

4.1 高斯牛顿法

4.1.1 算法原理

高斯牛顿法是一种最优化算法，是用于解决非线性最小二乘问题最简单的算法之一。
$\underset{x} {\rm min} F(x)=\frac{1}{2} \parallel f(x)\parallel _{2}^{2}\tag{1}$
高斯牛顿法的核心思想就是对式(1) $f (x)$ 进行一阶泰勒展开：
$f(x+\Delta x)\approx f(x)+J(x)^{T}\Delta x \tag{2}$

接下来就是要寻找增量 $\Delta x$ 使得 $\parallel f(x+\Delta x)\parallel _{2}^{2}$ 最小，即式（3）：
$\Delta x^{*} = \underset{\Delta x}{\rm argmin}\frac{1}{2} \parallel f(x)+J(x)^{T} \Delta x \parallel_{2}^{2} \tag{3}$
将上式展开得：
$\begin{align} \frac{1}{2} \parallel f(x)+J(x)^{T} \Delta x \parallel^{2} &=\frac{1}{2} \left ( f(x)+J(x)^{T}\Delta x \right )^{T} \left ( f(x)+J(x)^{T}\Delta x \right )\\ &=\frac{1}{2}\left ( \parallel f(x)^{2}_{2}\parallel+2f(x)J(x)^{T}\Delta x+ \Delta x^{T}J(x)J(x)^{T}\Delta x \right ) \end{align}$
上式对 $\Delta x$ 求导并使之为零得：
$J(x)f(x)+J(x)J(x)^{T} \Delta x = 0$
可得到如下方程组
${\underbrace{J (x)J(x)^{T}}_ {H(x)} } \Delta x = \underbrace{-J(x)f(x) }_{g(x)} \tag{4}$
式（4）是关于 $\Delta x$ 的线性方程组，称之为增量方程。将左边定义为 $H$ ,右边定义为 $g$ ，则：
$\Delta x = g \tag{5}$
则高斯牛顿算法描述如下：

给定初始值 $\Delta x$ ;
对于第 $k$ 次迭代。求解 $J(x_k)$ 和误差项 $f(x_k)$ ;
接着解方程 $\Delta x_k=g$ ;
若 $\Delta x_k$ 足够小，既然停止迭代，否则使 $x_{k+1}=x_k+\Delta x$ ,反悔第二步。

4.1.2 算法缺点

$H(x)=J(x)J(x)^{T}$ 有可能不可逆，导致算法不收敛。
$\Delta x$ 步长不好控制，也容易造成算法不收敛。

4.2列文伯格-马夸尔特算法¹

4.2.1算法原理

高斯牛顿法只有在泰勒展开点附近近似效果比较好，所以我们给 $\Delta x$ 添加一个范围，称为信赖区域。这个范围定义了在什么情况下近似是有效的。在这个范围内认为近似有效，出了这个范围近似可能有问题。我们定义一个指标 $\rho$ 来刻画近似的好还程度：
$\rho =\frac{f(x+\Delta x)-f(x)}{J(x)^{T}\Delta x}\tag{1}$

对于上面的式子，若 $\rho$ 近似为1，则近似是好的。如果 $\rho$ 太小，说明减小的值远小于近似减小的值，则认为近似比较差，需要缩小近似范围。相反，若 $\rho$ 太大，说明减小的值远大于近似减小的值，则应该放大近似范围。

改良版的非线性优化框架如下：

给定初始值 $\Delta x$ ，以及初始优化半径 $\mu$ ;
对于第 $k$ 次迭代，在高丝牛墩基础上添加信赖区域，求解：
$\underset{\Delta x_{k}}{\rm min}\frac{1}{2} \parallel f(x_k)+J(x_k)^{T}\Delta x_k \parallel^{2}, \quad s.t. \quad \parallel D\Delta x_k \parallel^{2}\le \mu,\tag{2}$

其中， $\mu$ 为信赖区域半径， $D$ 为系数矩阵，将在后文说明。

按式（1）计算 $\rho$ ;
若 $\rho> \frac{3}{4}$ ,则设置 $\mu = 2\mu$ ;
若 $\rho< \frac{1}{4}$ ,则设置 $\mu = 0.5\mu$ ;
如果 $\rho$ 大于某个阈值，则认为近似可行。令 $x_{k=1}=x_{k}+\Delta x_{k}$ ;
判断算法是否收敛，若不收敛则返回第2步，否则结束。

在列文伯格优化方法中，把 $D$ 取成单位阵 $I$ ,相当于直接把 $\Delta x$ 约束在一个球中。随后，马夸尔特提出将 $D$ 取成非负数对角阵，使得在梯度小的维度上约束范围更大一些。

式（2）是带不等式约束的优化问题，我们用拉格朗日乘子把约束项放到目标函数中，构成拉格朗日函数：
$\mathcal{L}(\Delta x_k,\lambda )=\frac{1}{2}\parallel f(x_k)+J(x_k)^{T}\Delta x_k \parallel^{2}+\frac{\lambda}{2}\left ( \parallel D\Delta x_k \parallel^{2} -\mu \right ) \tag{3}$
这里 $\lambda$ 为拉格朗乘子，令式（3）对 $\Delta x$ 求导并使之为零：
$(H+\lambda D^{T}D)\Delta x_k=g \tag{4}$
可以看到相比高斯牛顿法，增量方程多了 $\lambda D^{T}D$ 。因为 $D = I$ ,所以式（4）可以化简为：
$(H+\lambda I)\Delta x_{k}=g$
从上式可以看到，当 $\lambda$ 较小时， $H$ 占主要地位，则说明二次近似在此范围内比较好，此时更接近高斯牛顿法。另一方面，当 $\lambda$ 较大时， $\lambda I$ 占主要地位，则更接近梯度下降法。说明近似不好。列文伯格-马夸尔特算法，可在一定程度上避免线性方程组系数矩阵的不可逆问题，提供更稳定、更准确的增量 $\Delta x$ 。