METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS 翻译（三）

Teamo1996

于 2022-04-30 04:31:07 发布

阅读量1.8k

点赞数 3

分类专栏： SLAM通用基础文章标签：非线性最小二乘问题优化原理

本文链接：https://blog.csdn.net/weixin_39061796/article/details/124507667

版权

非线性最小二乘高斯-牛顿法列文伯格-马尔夸特法牛顿-拉夫森法阻尼因子

关键词由CSDN通过智能技术生成

SLAM通用基础专栏收录该内容

8 篇文章 14 订阅

订阅专栏

METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS（三）

3. 非线性最小二乘问题

在本手册的其余部分中，我们将讨论求解非线性最小二乘问题的方法。给定一个向量函数 $f:\mathbb{R}^n \to \mathbb{R}^m \, with \, m\geq n$ 。我们想要最小化 $∣ ∣ f (x) ∣ ∣$ ，或者等价地找到

$\pmb{x}^* = argmin_{\pmb{x}} \{F(\pmb{x})\} \tag{3.1 a}$

其中
$F(\pmb{x}) = \frac{1}{2} \sum_{i=1}^{m}{(f_i(\pmb{x}))^2} = \frac{1}{2}||f(\pmb{x})||^2 = \frac{1}{2}f(\pmb{x})^Tf(\pmb{x}) \tag{3.1 b}$

最小二乘问题可以用通用的优化方法来解决，但我们将提出更有效的特殊方法。在许多情况下，它们的性能比线性收敛更好，有时甚至可以达到二次收敛的性能，即使它们不需要实现二阶导数的计算。

在对本章的方法的描述中，我们需要 $F$ 的导数的公式：假设 $f$ 有连续的二阶偏导数，我们可以把它的泰勒展开写为
$f(\pmb{x}+\pmb{h}) = f(\pmb{x}) +\pmb{J}(\pmb{x})\pmb{h} + \mathit{O}(||\pmb{h}||^2) \tag{3.2 a}$

其中 $\pmb{J} \in \mathbb{R}^{m \times n}$ 是雅可比矩阵。这是一个包含函数分量的一阶偏导数的矩阵，
$(\pmb{J}(\pmb{x}))_{ij}=\frac{\partial f_i}{\partial x_j}(\pmb{x}) \tag{3.2 b}$

对于 $F:\mathbb{R}^n \to \mathbb{R}$ ，从（3.1b）中的第一个公式可以得出，
$\frac{\partial F}{\partial x_j}(x) = \sum_{i=1}^{m}{f_i(x) \frac{\partial f_i}{\partial x_j}(x)} \tag{3.3}$

如果我们没有在定义（3.1b）中使用因子 $\frac{1}{2}$ ，我们就会在很多表达式中得到一个恼人的因子 $2$ 。

因此，梯度（1.4b）为
$\dot{F}(x) = J(x)^T f(x) \tag{3.4 a}$

我们还需要 $F$ 的海塞矩阵，从（3.3）我们可以看到位置 $(j ， k)$ 的元素是
$\frac{\partial^2 F}{\partial x_j \partial x_k} = \sum_{i=1}^{m}{( \frac{\partial f_i}{\partial x_j}(\pmb{x}) \frac{\partial f_i}{\partial x_k}(\pmb{x}) + f_i(\pmb{x}) \frac{\partial^2 f_i }{\partial x_j \partial x_k}(\pmb{x}) )}$
从而
$\ddot{F}(x) = J(x)^TJ(x) + \sum_{i=1}^{m}{f_i(x) \ddot{f}_i(x)} \tag{3.4 b}$

示例3.1.

（3.1）最简单的情况是当 $f(\pmb{x})$ 具有以下形式时
$f(\pmb{x}) = \pmb{b} -\pmb{A}\pmb{x}$

其中向量 $\pmb{b} \in \mathbb{R}^m$ 和矩阵 $\pmb{A} \in \mathbb{R}^{m \times n}$ 。我们说这是一个线性最小二乘问题。在这种情况下，对所有的 $\pmb{x}$ ， $\pmb{J}(\pmb{x}) = - \pmb{A}$ ，并且从（3.4a）中我们可以得到
$\dot{\pmb{F}}(\pmb{x}) = -\pmb{A}^T(\pmb{b}-\pmb{A}\pmb{x})$
当 $\pmb{x}^∗$ 为下式对应的所谓的正规方程的解时，此方程为 $0$
$(\pmb{A}^T\pmb{A})\pmb{x}^{*} = \pmb{A}^T\pmb{b} \tag{3.5}$

这个问题可以用以下形式来表示
$\pmb{A}\pmb{x}^* \approx \pmb{b}$

或者我们可以通过正交变换来求解它：找到一个正交矩阵 $\pmb{Q}$ 满足
$\pmb{Q}^T\pmb{A} = \begin{bmatrix} \pmb{R} \\ \pmb{0} \end{bmatrix}$

其中， $\pmb{R}\in \mathbb{R}^{n \times n}$ 为上三角形矩阵。通过在系统中的反向替换找到解
$\pmb{R}\pmb{x}^* = (\pmb{Q}^T\pmb{b})_{1:n}$

该方法的解比通过正规方程得到的解更精确。

在MATLAB中，假设数组 A 和 b 代表矩阵 $\pmb{A}$ 和向量 $\pmb{b}$ 。然后，命令 $\setminus b$ 返回通过正交变换计算出的最小二乘解。

正如标题所暗示的那样，我们假设 $f$ 是非线性的，并且不应该详细讨论线性问题。我们参考了 Madsen and Nielsen（2002）的第2章或 Golub and Van Loan (1996) 的第5.2节。

示例 3.2.

在例子1.1中，我们看到了一个由数据拟合产生的非线性最小二乘问题。另一个应用是在如下所示的非线性方程的求解中，
$f(\pmb{x}^*) = 0, \quad where \, f:\mathbb{R}^n \to \mathbb{R}^n$

我们可以使用牛顿-拉夫森的方法：从最初的猜测 $\pmb{x}_0$ 开始，我们使用以下算法计算 $\pmb{x}_1,\pmb{x}_2,...$ ，该算法基于寻找 $\pmb{h}$ ，使得 $f(\pmb{x}+\pmb{h})=0$ 并且忽略（3.2a）中的项 $\mathit{O}(||\pmb{h}||^2)$ ，

$\begin{matrix} Solve \quad \pmb{J}(\pmb{x}_k)\pmb{h} = -f(\pmb{x}_k) \quad for \quad h_k \\ \pmb{x}_{k+1}=\pmb{x}_k + \pmb{h}_k\end{matrix} \tag{3.6}$

这里，雅可比矩阵 $\pmb{J}$ 由（3.2b）给出。如果 $\pmb{J}(\pmb{x}^*)$ 是非奇异的，则该方法具有二次的最终收敛性能，即如果 $d_k = ||\pmb{x}_k - \pmb{x}^*||$ 很小，则 $||\pmb{x}_{k+1}-\pmb{x}^*||=\mathit{O}(d_k^2)$ 。然而，如果 $\pmb{x}_k$ 远离 $\pmb{x}^∗$ ，那么迭代后我们就有可能距离真值更远。

我们可以以一种使我们能够使用本章中将要介绍的所有“工具”的方式来重新表述这个问题：（3.6）的解是由（3.1）定义的函数 $\pmb{F}$ 的全局最小值，

$F(\pmb{x}) = \frac{1}{2} ||f(\pmb{x})||^2$

由于 $F(\pmb{x}^∗)=0$ 并且当 $f(\pmb{x}) \neq 0$ 时 $F(\pmb{x}) > 0$ 。我们可以用以下方法来代替（3.6）中近似解的更新
$x_{k+1} = x_k + \alpha_k h_k$

其中， $\alpha_k$ 是通过应用于函数 $\varphi(\alpha)=F(\pmb{x}_k+\alpha \pmb{h}_k)$ 的线搜索找到的。

作为一个具体的例子，我们将考虑以下问题，取自Powell（1970），
$f(\pmb{x}) = \begin{bmatrix} x_1 \\ \frac{10x_1}{x_1 + 0.1} +2x_2^2\end{bmatrix}，$

这个问题以 $\pmb{x}^∗=0$ 作为唯一的解。对应的雅各比矩阵为
$\pmb{J}(\pmb{x}) = \begin{bmatrix} 1 & 0 \\ (x_1 + 0.1)^{-2} & 4x_2 \end{bmatrix}，$

它在解上是奇异的。

如果我们取 $\pmb{x}_0 = [3,1]^T$ 并使用上述算法进行精确的线搜索，那么迭代将会收敛到 $\pmb{x}_c \approx [1.8016,0]^T$ ，这不是一个解。另一方面，很容易看出，由算法（3.6）给出的迭代是 $\pmb{x}_k = [0,y_k]^T$ 与 $y_{k+1}=\frac{1}{2} y_k$ ，即我们线性收敛到解。在一些例子中，我们将返回到这个问题，看看不同的方法是如何处理它。

3.1. 高斯-牛顿法

这种方法是我们将在下一节中描述的非常有效的方法的基础。它是基于向量函数分量的一阶导数的实现。在特殊情况下，它可以给出二次收敛性能，就像牛顿法用于通用优化问题那样，详见 Frandsen et al（2004）。

高斯-牛顿方法是基于对 $\pmb{x}$ 附近的 $\pmb{f}$ 的分量的线性近似（ $\pmb{f}$ 的线性模型）：对于小的 $||\pmb{h}||$ ，根据泰勒展开（3.2）可以得到

$\pmb{f}(\pmb{x}+\pmb{h}) \approx \pmb{l} (\pmb{h}) = \pmb{f}\pmb{(x}) + \pmb{J}(\pmb{x})\pmb{h} \tag{3.7 a}$

将其代入到 $F$ 的定义（3.1）中，我们可以得到
$F(\pmb{x}+\pmb{h}) \approx L(\pmb{h}) = \frac{1}{2} \pmb{l}(\pmb{h})^T\pmb{l}(\pmb{h}) \\ =\frac{1}{2}\pmb{f}^T\pmb{f} + \pmb{h}^T\pmb{J}^T\pmb{f} + \frac{1}{2}\pmb{h}^T\pmb{J}^T\pmb{J}\pmb{h} \\ = F(\pmb{x}) +\pmb{ h}^T\pmb{J}^T\pmb{f} + \frac{1}{2}\pmb{h}^T\pmb{J}^T\pmb{J}\pmb{h} \tag{3.7 b}$

（其中 $\pmb{f}=\pmb{f}(\pmb{x})$ 和 $\pmb{J}=\pmb{J}(\pmb{x})$ ）。高斯-牛顿步长 $\pmb{h}_{gn}$ 使 $ L(\pmb{h})$ 最小化，
$\pmb{h}_{gn} = argmin_{\pmb{h}} \{L(\pmb{h})\}$

很容易看出， $L$ 的梯度和海塞矩阵为
$\dot{\pmb{L}}(\pmb{h}) = \pmb{J}^T\pmb{f} + \pmb{J}^T\pmb{J}\pmb{h}, \quad \ddot{\pmb{L}}(\pmb{h}) = \pmb{J}^T\pmb{J} \tag{3.8}$

与（3.4a）的比较表明， $\dot{\pmb{L}}(\pmb{0}) = \dot{\pmb{F}}(\pmb{x})$ 。此外，我们还可以看到矩阵 $\ddot{\pmb{L}}(\pmb{h})$ 与 $h$ 无关。它是对称的，如果 $\pmb{J}$ 是满秩的，即如果 $\pmb{J}$ 的列是线性独立的，那么 $\ddot{\pmb{L}}(\pmb{h})$ 也是正定的，参见附录A。这意味着 $L(\pmb{h})$ 有一个唯一的最小值，这可以通过求解下列方程找到
$(\pmb{J}^T\pmb{J})\pmb{h}_{gn}=-\pmb{J}^T\pmb{f} \tag{3.9}$

这是 $F$ 的一个下降方向，由于
$\pmb{h}_{gn}^T \dot{\pmb{F}}(\pmb{x}) = \pmb{h}_{gn}^T(\pmb{J}^T\pmb{f})= -\pmb{h}_{gn}^T(\pmb{J}^TJ)\pmb{h}_{gn} < 0 \tag{3.10}$

因此，我们可以在算法 2.4 中使用 $\pmb{h}_{gn}$ 来表示 $\pmb{h}_d$ 。典型的步骤是
$\quad (\pmb{J}^TJ)\pmb{h}_{gn} = -\pmb{J}^T\pmb{f} \\ \pmb{x}:=\pmb{x}+\alpha \pmb{h}_{gn} \tag{3.11}$

其中， $\alpha$ 是通过线搜索找到的。经典的高斯-牛顿方法在所有步骤中都使用了 $\alpha = 1$ 。可以证明使用线搜索的方法可以保证收敛性，前提是

a. $\{\pmb{x} \, | \, F(\pmb{x}) \leq F(\pmb{x}_0)\}$ 是有界的，并且
b. 雅各比矩阵 $\pmb{J}(\pmb{x})$ 在所有步骤中都是满秩的。

在第 2 章中，我们看到牛顿优化方法具有二次收敛性。高斯-牛顿法通常不是这样。

为了说明这一点，我们比较了两种方法中使用的搜索方向，
$\ddot{\pmb{F}}(\pmb{x})\pmb{h}_n = -\dot{\pmb{F}}(\pmb{x}) \quad and \quad \ddot{\pmb{L}}(\pmb{h}) \pmb{h}_{gn} = -\dot{\pmb{L}}(\pmb{0})$

我们已经在 (3.8) 处指出，两个公式的右侧是相同的，但是从（3.4b）和（3.8）中我们看到左边的系数矩阵是不同的：
$\ddot{\pmb{F}}(\pmb{x}) = \ddot{\pmb{L}}(\pmb{h}) + \sum_{i=1}^{m}{f_i(x) \ddot{\pmb{f}}_i(\pmb{x})} \tag{3.12}$

因此，如果 $f(\pmb{x}^∗) = \pmb{0}$ ，那么当 $\pmb{x}$ 接近 $\pmb{x}^*$ 时 $\ddot{\pmb{L}}(\pmb{h}) \approx \ddot{\pmb{F}}(\pmb{x})$ ，高斯-牛顿方法也具有二次收敛性。如果函数 ${f_i\}$ 具有小曲率或 $|f_i(\pmb{x}^*)|$ 很小，我们可以期待超线性收敛，但通常我们认为高斯-牛顿法具有线性收敛性能。值得注意的是，$F(\pmb{x}^*) $ 的值控制了收敛速度。

示例 3.3.

考虑 $n = 1, m = 2$ 时的简单问题
$\begin{bmatrix} x+1 \\ \lambda x^2 +x - 1 \end{bmatrix}. \quad F(x)=\frac{1}{2}(x+1)^2 + \frac{1}{2}(\lambda x^2 +x -1)^2$

它遵循
$\dot{F}(x) = 2 \lambda^2 x^3 + 3 \lambda x^2 - 2(\lambda -1)x$

所以 $x = 0$ 是 $F$ 的驻点。现在，
$\ddot{F}(x) = 6\lambda^2 x^2 + 6\lambda x - 2(\lambda - 1)$

这表明如果 $\lambda < 1$ ，则 $\ddot{\pmb{F}}(x) > 0$ ，因此 $x = 0$ 是局部最小值—实际上，它也是全局最小值。

雅各比矩阵为
$\pmb{J}(x) = \begin{bmatrix} 1 \\ 2 \lambda x + 1\end{bmatrix}$

并且从 $x_k$ 出发的经典高斯-牛顿方法给出
$x_{k+1} = x_k - \frac{2 \lambda ^2 x_k^3 + 3 \lambda x_k^2 - 2(\lambda - 1)x_k}{2+4 \lambda x_k +4 \lambda ^2 x_k^2}$

现在，如果 $\lambda \neq 0$ 并且 $x_k$ 接近于零，则
$x_{k+1} = x_k + (\lambda-1)x_k + \mathit{O}(x_k^2) = \lambda x_k + \mathit{O}(x_k^2)$

因此，如果 $|\lambda| < 1$ ，我们具有线性收敛性能。如果 $\lambda < -1$ ，则经典高斯-牛顿法无法找到最小值。例如，当 $\lambda = -2$ 和 $x_0 = 0.1$ 时，我们得到看似混乱的迭代行为，

请添加图片描述

最后，如果 $\lambda = 0$ ，那么
$x_{k+1} = x_k - x_k = 0$

即我们一步就找到了解。原因是在这种情况下 $f$ 是线性函数。

示例 3.4.

对于示例 1.1 中的数据拟合问题，雅各比矩阵的第 $i$ 行是
$\pmb{J}(\pmb{x})_{i,:}=\begin{bmatrix} -x_3 t_i e^{x_1 t_i} & -x_4 t_i e^{x_2 t _i} & -e^{x_1 t_i} & -e^{x_2 t_i}\end{bmatrix}$

如果问题是一致的（即 $\pmb{f}(\pmb{x}^∗) = 0$ ），且 $x_1^*$ 与 $x_2^*$ 显著不同，那么使用线搜索的高斯-牛顿法将具有二次最终收敛性能。如果 $x_1^* = x_2^*$ ，则 $rank(\pmb{J}(\pmb{x}^*)) \leq 2$ ，高斯-牛顿法失效。

如果一个或多个测量误差较大，则 $\pmb{f}(\pmb{x}^*)$ 有一些较大的分量，这可能会减慢收敛速度。

在 MATLAB 中，我们可以给出一个非常紧凑的函数来计算 $\pmb{f}$ 和 $\pmb{J}$ ：假设 $\pmb{x}$ 保存当前迭代结果，并且 $m\times2$ 的数组 $t y$ 保存数据点的坐标。以下函数返回包含 $\pmb{f}(\pmb{x})$ 和 $\pmb{J}(\pmb{x})$ 的 $f$ 和 $J$ 。

请添加图片描述

示例 3.5.

考虑示例 3.2 中的问题， $\pmb{f}(\pmb{x}^∗) = 0$ 且 $f:\mathbb{R}^n \to \mathbb{R}^n$ 。如果我们使用牛顿-拉夫森方法来解决这个问题，典型的迭代步骤是
$\quad \pmb{J}(\pmb{x})\pmb{h}_{nr} = -\pmb{f}(\pmb{x}); \quad \pmb{x}:= \pmb{x}+\pmb{h}_{nr}$

应用于最小化 $\frac{1}{2}\pmb{f}(\pmb{x})^T\pmb{f}(\pmb{x})$ 的高斯-牛顿方法具有以下的典型步骤
$\quad (\pmb{J}(\pmb{x})^T \pmb{J}(\pmb{x})) \pmb{h}_{gn}= -\pmb{J}(\pmb{x})^T \pmb{f}(\pmb{x}); \quad \pmb{x}:= \pmb{x}+\pmb{h}_{gn}$

注意， $\pmb{J}(\pmb{x})$ 是一个方阵，我们假设它是非奇异的。则 $(\pmb{J}(\pmb{x})^T)^{-1}$ 存在，因此 $\pmb{h}_{gn}=\pmb{h}_{nr}$ 。因此，当应用于例 3.2 中的 Powell 问题时，高斯-牛顿法将有与该示例中讨论的牛顿-拉夫森方法方法相同的问题。

这些例子表明，高斯-牛顿法可能会失败，无论是有还是没有线搜索。尽管如此，在许多应用程序中，它提供了相当不错的
性能，尽管它通常只具有线性收敛性能，而不是实现了二阶导数的牛顿法的二次收敛性能。

在第 3.2 节和第 3.3 节中，我们给出了两种具有优越全局性能的方法，在第 3.4 节中，我们对第一种方法进行了修改，以实现超线性最终收敛性能。

3.2. 列文伯格-马尔夸特方法

Levenberg (1944) 和后来的 Marquardt (1963) 建议使用阻尼高斯-牛顿方法，参见第 2.4 节。步长 $\pmb{h}_{lm}$ 由对（3.9）的以下修改确定，
$(\pmb{J}^T\pmb{J} + \mu \pmb{I})\pmb{h}_{lm} = -\pmb{g} \quad with \quad \pmb{g}=\pmb{J}^T\pmb{f} \, and \, \mu \geq 0 \tag{3.13}$

这里， $\pmb{J} = \pmb{J}(\pmb{x})$ 和 $\pmb{f} = \pmb{f}(\pmb{x})$ 。阻尼参数 $\mu$ 有以下几个影响：

a) 对于所有的 $\mu> 0$ ，系数矩阵是正定的，这确保 $\pmb{h}_{lm}$ 是下降方向，参见 (3.10)。
b) 对于较大的 $\mu$ 值，我们得到
$\pmb{h}_{lm} \approx - \frac{1}{\mu} \pmb{g} = - \frac{1}{\mu} \dot{\pmb{F}}(\pmb{x})$
即在最陡下降方向上的一小步。如果当前的迭代远离最优解，这很好。
c) 如果 $\mu$ 非常小，则 $\pmb{h}_{lm} \approx \pmb{h}_{gn}$ 。当 $x$ 接近 $x^∗$ 时，这是迭代最后阶段的一个很好的步长。如果 $F(\pmb{x}^*)=0$ （或非常小），那么我们可以（几乎）得到二次最终收敛性能。

因此，阻尼参数会影响步长的方向和大小，这导致我们制定了一种不需要特定线搜索的方法。初始 $\mu$ 值的选择应与 $\pmb{A}_0 = \pmb{J}(\pmb{x}_0)^T\pmb{J}(\pmb{x}_0)$ 中元素的大小有关，例如让
$\mu_0 = \tau \cdot max_i \{a_{ii}^{(0)}\} \tag{3.14}$

其中 $\tau$ 由用户选择。

该算法对 $\tau$ 的选择不是很敏感，但根据经验，应该使用一个小的值，例如，如果 $x_0$ 被认为是 $x^∗$ 的良好近似值，则 $\tau = 10^{−6}$ 。否则，使用 $\tau = 10^{-3}$ 甚至 $\tau= 1$ 。

在迭代期间，可以更新 $\mu$ 的大小，如第 2.4 节所述。更新由增益比率所控制
$\wp = \frac{ F(\pmb{x}) - F(\pmb{x}+\pmb{h}_{lm})}{ L(\pmb{0}) - L( \pmb{h}_{lm} ) }$

其中分母是线性模型（3.7b）预测的增益，
$L(\pmb{0}) - L(\pmb{h}_{lm}) = -\pmb{h}_{lm}^T\pmb{J}^T\pmb{f} - \frac{1}{2} \pmb{h}_{lm}^T \pmb{J}^T \pmb{J} \pmb{h}_{lm} \\ = - \frac{1}{2}\pmb{h}_{lm}^T(2\pmb{g} + (\pmb{J}^T\pmb{J} + \mu \pmb{I} - \mu \pmb{I})\pmb{h}_{lm}) \\ = \frac{1}{2}\pmb{h}_{lm}^T(\mu \pmb{h}_{lm} - \pmb{g})$

注意到 $\pmb{h}_{lm}^T\pmb{h}_{lm}$ 和 $-\pmb{h}_{lm}^T\pmb{g}$ 都是正的，所以 $L(\pmb{0})-L(\pmb{h}_{lm})$ 保证是正的。

较大的 $\wp$ 值表明 $L(\pmb{h}_{lm})$ 是 $F(\pmb{x}+\pmb{h}_{lm})$ 的一个很好的近似值，我们可以减小 $\mu$ ，这样下一个列文伯格-马尔夸特步长更接近高斯-牛顿步长。如果 $\wp$ 很小（甚至可能是负数），那么 $L(\pmb{h}_{lm})$ 是一个很差的近似值，我们应该增加 $\mu$ 以达到更接近最陡下降方向和减少步长的双重目标。可以通过不同的方式实现这些目标，请参见第 2.4 节和下面的示例 3.7。

算法的停止标准应该反映在全局最小值我们有 $\dot{\pmb{F}}(\pmb{x}^∗) = \pmb{g}(\pmb{x}^∗) = 0$ ，所以我们可以使用
$||\pmb{g}||_{\infty} \leq \epsilon_1 \tag{3.15 a}$

其中 $\epsilon_1$ 是一个小的正数，由用户选择。另一个相关标准是：如果 $\pmb{x}$ 的变化很小，则停止，
$||\pmb{x}_{new} - \pmb{x}|| \leq \epsilon_2(||\pmb{x}|| + \epsilon_2) \tag{3.15 b}$

这个表达式给出了从 $||\pmb{x}||$ 大时的相对步长 $\epsilon_2$ 到 $\pmb{x}$ 接近 $\pmb{0}$ 时的绝对步长 $\epsilon_2^2$ 的渐进变化。最后，在所有迭代过程中，我们需要防止无限循环，
$\geq k_{max} \tag{3.15 c}$

$\epsilon_2$ 和 $k_{max}$ 也是由用户选择的。

例如，如果 $\epsilon_1$ 选择得如此之小以至于舍入误差对 $||\pmb{g}||_\infty$ 有很大影响时最后两个标准生效。这通常表明 $F$ 中的实际增益与线性模型 (3.7b) 预测的增益之间的一致性不佳，并且会导致 $\mu$ 在每一步中都增加。增加 $\mu$ 的策略（2.21）意味着在这种情况下 $\mu$ 增长很快，导致 $||\pmb{h}_{lm}||$ 较小，并且这个过程将由（3.15b）停止。

该算法总结如下。

请添加图片描述

示例 3.6.

通过比较（3.9）和正规方程（3.5）我们看到 $\pmb{h}_{gn}$ 只是如下线性问题的最小二乘解
$\pmb{f}(\pmb{x}) + \pmb{J}(\pmb{x})\pmb{h} \approx 0$

类似地，L-M 方程（3.13）是如下线性问题的正规方程
$\begin{bmatrix} \pmb{f}(\pmb{x}) \\ \pmb{0} \end{bmatrix} + \begin{bmatrix} \pmb{J}(\pmb{x}) \\ \sqrt{\mu} \pmb{I} \end{bmatrix}\pmb{h} \approx 0$

如例 3.1 所述，最准确的解是通过正交变换找到的。但是， $\pmb{h}_{lm}$ 的解只是一个迭代过程中的一个步骤，不需要很精确地计算，而且由于通过正规方程获得的解“更便宜”，所以通常采用这种方法。

示例 3.7.

我们在示例 1.1 和 3.4 中的数据拟合问题上使用了算法 3.16。图 1.1 表明 $x_1$ 和 $x_2$ 都是负数，并且 $M(\pmb{x}^∗, 0) \approx 0$ 。这些条件由 $x_0 = [-1, -2, 1, -1]^T$ 满足。此外，我们在表达式（3.14）中使用 $\tau = 10^{−3} $ 计算 $\mu_0$ 并且在（3.15）给出的停止迭代标准中使用 $\epsilon_1 = \epsilon_2 = 10^{-8}, k_{max}=200$ 。

该算法在 $\approx [-4, -5, 4, -4]^T$ 对应的第62次迭代步骤后停止。性能如下图所示；注意这里纵轴是对数纵坐标轴
请添加图片描述

这个问题并不一致，所以我们可以期待线性最终收敛性能。最后 7 个迭代步骤表明收敛性更好（超线性）。解释是， $\ddot{f}_i(\pmb{x})$ 是 $t_i$ 的缓变函数，而 $f_i(\pmb{x}^*) $ 具有“随机”的符号，因此对 (3.12) 中“遗忘项”的贡献几乎被抵消。这种情况在很多数据拟合应用中都会出现。

为了比较，图 3.2b 显示了使用更新策略（2.20）的性能。从第 5 步到第 68 步，我们看到 $\mu$ 在每次减小之后都会立即增加，并且梯度的范数具有崎岖不平的行为。这会减慢收敛速度，但最后阶段与图 3.2a 所示一致。
请添加图片描述

示例 3.8.

图 3.3 说明了算法 3.16 应用于示例 3.2 和 3.5 中的 Powell 问题的性能。起点是 $\pmb{x}_0 =[3, 1 ]^T$ ， $\mu_0$ 由（3.14）中令 $\tau = 1$ 给出，并且我们在停止标准（3.15）中使用 $\epsilon_1 = \epsilon_2 = 10^{−15}, k_{max}= 100$ 。

请添加图片描述

迭代似乎在步骤 22 和 30 之间停止。这是（几乎）奇异雅各比矩阵的影响。之后似乎具有线性收敛性能。迭代在点 $\pmb{x} = [ -3.82e-08, -1.38e-03 ]^T$ 处由“保护措施”停止。这比我们在示例 3.2 中找到的更接近 $\pmb{x}^∗ = 0$ ，但我们希望能够做得更好；见示例 3.10 和 3.17。