最小二乘估计与非线性最小二乘：从牛顿法到LM法-CSDN博客

本文链接：https://blog.csdn.net/jdy_lyy/article/details/118947088

1 📖 概念入门：最小二乘估计（LSE）

最小二乘估计，简写为LSE(Leart Squares Estimate）

1-1 🔖 最小二乘模型的引出

线性模型如下：
$\mathbf{Y}=\mathbf{A} \boldsymbol{X}+\boldsymbol{\varepsilon}$

其中：

$\mathbf{Y}=\left(y_{1}, y_{2}, \ldots, y_{n}\right)^{T}$ :为观测向量

$\bf{A}$ ：为一个 ${n}\times{n}$ 的矩阵

$\varepsilon=\left(\varepsilon_{1}, \varepsilon_{2}, \ldots, \varepsilon_{n}\right)^{T}$ ：为随机误差向量

注意：

上面式常常写做
$f(X)=\mathbf{A} {X}-b$

$b$ ：这里相当于上面的 $\bf{Y}$

如果
$\left(\mathbf{Y}-\mathbf{A} \boldsymbol{X}_{L S E}\right)^{T}\left(\mathbf{Y}-\mathbf{A} \boldsymbol{X}_{L S E}\right)=\min _{\boldsymbol{X}}(\mathbf{Y}-\mathbf{A} \boldsymbol{X})^{T}(\mathbf{Y}-\mathbf{A} \boldsymbol{X})$
称 $\boldsymbol{X}_{L S E}$ 是 $\boldsymbol{X}$ 的线性估计，LSE的意思是最小二乘估计（Leart Squares Estimate）

1-2 🔖 最小二乘模型求解（假设A满秩）

下面开始求解 $\boldsymbol{\beta}_{L S E}$ ，首先设：
$Q(\boldsymbol{X})=(\mathbf{Y}-\mathbf{A} \boldsymbol{X})^{T}((\mathbf{Y}-\mathbf{A} \boldsymbol{X})$
求LSE等价于求 $Q(\boldsymbol{X})$ 的最小值，令
$\frac{\partial Q(\boldsymbol{X})}{\partial \boldsymbol{X}}=-2 \mathbf{A}^{T} \mathbf{Y}+2 \mathbf{A}^{T} \mathbf{A} \boldsymbol{X}=0$
可得：
$\mathbf{A}^{T} \mathbf{A} \boldsymbol{X}=\mathbf{A}^{T} \mathbf{Y}$
这个方程组叫做正规方程（normal equations）组。

设 $\bf{A}$ 是列满秩矩阵，则正规方程的解唯一：
$\boldsymbol{X}_{L S E}=\left(\mathbf{A}^{T} \mathbf{A}\right)^{-1} \mathbf{A}^{T} \mathbf{Y}$
显然， $\boldsymbol{X}_{L S E}$ 是 $\bf{Y}$ 的线性函数。

1-3 🔖 高斯马尔科夫定理介绍

首先插入一下什么是线性估计和最佳线性无偏估计：

线性估计：若估计量是观测值的线性函数，则称它为线性估计。
最佳线性无偏估计（BLUE, Best Linear unbiased estimator）：设 $\hat{\theta}$ 是参数 ${\theta}$ 的线性无偏估计。如果对 ${\theta}$ 的任意一个线性无偏估计 $\theta^{*}$ ，有 $\operatorname{var}\left(\theta^{*}\right) \geq \operatorname{var}(\hat{\theta})$ ，则称 $\hat{\theta}$ 是参数 ${\theta}$ 的 BLUE 。

在统计学中，高斯－马尔可夫定理是指：

在线性回归模型中，如果误差满足零均值、同方差且互不相关，则回归系数的最佳线性无偏估计(BLUE, Best Linear Unbiased Estimator)就是普通最小二乘法估计。

高斯－马尔可夫定理的假设条件是：

零均值: $\mathrm{E}(\varepsilon)=0$
同方差且不相关： $\operatorname{var}(\varepsilon)=\mathrm{E}\left(\varepsilon \varepsilon^{T}\right)=\sigma^{2} \mathbf{I}_{\mathrm{n}}$ （其中 $\bf{I}_{n}$ 为n阶单位矩阵(Identity Matrix)。）

2 📖 雅克比矩阵、海森矩阵与非线性最小二乘间的关系

2-1 🔖 雅克比矩阵

雅可比矩阵：
$\left[\begin{array}{ccc}\frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right]$
此矩阵表示为：
$J\left(x_{1}, \ldots, x_{n}\right)$
或者
$\frac{\partial\left(y_{1}, \ldots, y_{m}\right)}{\partial\left(x_{1}, \ldots, x_{n}\right)}$

2-2 🔖 海森矩阵

在数学中，海森矩阵（Hessian matrix 或 Hessian）是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵，此函数如下：
$f\left(x_{1}, x_{2}, \ldots, x_{n}\right)$

如果 f 所有的二阶导数都存在，那么 f 的海森矩阵即：
$H(f)_{i j}(x)=D_{i} D_{j} f(x)$
其中 $x=\left(x_{1}, x_{2}, \ldots, x_{n}\right)^{T}$ ，即
$H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$

2-3 🔖 解非线性最小二乘

一、最小二乘问题
$\min _{x \in R^{\prime}} f(x)=\min _{x \in R^{\prime}} \sum_{i=1}^{m} f_{i}^{2}(x)$
这里 $f_{i}(x)(i=1,2, \cdots, m)$ 可理解为误差, 上式优化问题就是要使误差的平方和最小（即最小二乘问题）。

当 $f_{i}(x)(i=1,2, \cdots, m)$ 都是线性函数时,上式问题是线性最小二乘问题;
当 $f_{i}(x)(i=1,2, \cdots, m)$ 有非线性函数时,上式就是非线性最小二乘问题。

二、线性最小二乘问题
$\begin{array}{l} f_{i}(x)=p_{i}^{T} x-b_{i} \quad(i=1,2, \cdots, m) \\ A=\left[\begin{array}{c} p_{1}^{T} \\ \vdots \\ p_{m}^{T} \end{array}\right], b=\left[\begin{array}{c} b_{1} \\ \vdots \\ b_{m} \end{array}\right] \end{array}$
则
$f(x)=(A x-b)^{T}(A x-b)=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b$
令
$\nabla f(x)=2 A^{T} A x-2 A^{T} b=0$
得
$A^{T} A x=A^{T} b \quad$

上面式子称为法方程组

若 $\mathrm{A}$ 列满秩, 则 $\mathrm{A}^{\mathrm{T}} \mathrm{A}$ 为正定对称矩阵, 从而可逆,得到, 线性最小二成问题的全局最优解
$x^{*}=\left(A^{T} A\right)^{-1} A^{T} b$

三、非线性最小二乘问题
由于的 $\mathrm{f}_{\mathbf{i}}(\mathbf{x})$ 非线性性, 此时按梯度等于0得到的是一个非线性方程组, 求解困难。常用的基本思想是用一些列最小二乘问题求解该非线性是小二乘问题：

设 $\mathrm{x}^{(\mathrm{k})}$ 是解的第k次近似,在 $\mathbf{x}^{(\mathrm{k})}$ 处将函数 $\mathbf{f}_{\mathbf{i}}(\mathbf{x})$ 线性化, 把问题化为线性最小二乘问题, 求出第 $\mathbf{k}+1$ 次近似解 $\mathrm{x}^{(k+1)}$ ; 再从 $\mathrm{x}^{(k+1)}$ 出发, 重复此过程, 直到达到迭代终止难则。

2-4 🔖 牛顿法

注意：这里雅克比 $J = A$ ，因为这里的雅克比 $J$ 是相对于 $f = A X$ 来说的，并不是针对最小二乘来说的

为了能够方便理解整个流程, 我们还是拿一元函数 $f (x)$ 来举例。

我们首先对其在 $x=x_{0}$ 处进行二阶泰勒展开：
$f(x)=f\left(x_{0}\right)+f^{i}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2}\left(x-x_{0}\right)^{2}+o\left(x-x_{0}\right)^{2}$

其中, 由于泰勒展开的特性，后面 $o\left(x-x_{0}\right)$ 部分不予考虑，我们只考虑前面展开部分的极值问题:
$g(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2}\left(x-x_{0}\right)^{2}$

上面的式子是一个一元二次函数，那么其极值就是一阶导数为0的时候，我们可以先微分：
$g^{\prime}(x)=f^{\prime}\left(x_{0}\right)+f^{\prime \prime}\left(x_{0}\right)\left(x-x_{0}\right)$

令 $g^{\prime}\left(x_{1}\right)=0$ , 则此时的 $x_{1}$ 就是极值（为了方便说明，暂不考虑鞍点的情况）。故
$f^{\prime}\left(x_{0}\right)+f^{\prime \prime}\left(x_{0}\right)\left(x_{1}-x_{0}\right)=0 \\ x_{1}=x_{0}-\frac{f^{\prime}\left(x_{0}\right)}{f^{\prime \prime}\left(x_{0}\right)}$
以此类推，可以得到迭代公式：
$x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime \prime}\left(x_{n}\right)}$
根据这个方法就可以不断的迭代下去直到收敘，最终找到极值了。
如果是多元的情况, 则一阶导数 $f^{\prime}(x)$ 被叫做梯度, 也称之为雅可比矩阵 $J$ (这里不太严谨。严格来说, 矩阵的梯度为一阶导的转置, 函数的梯度为一阶导，这里并没有进行详细的区分），二阶导数矩阵 $f^{\prime \prime}(x)$ , 也被叫做海塞矩阵 $H$ 。如果是收敘的话, $\Delta x=x_{n+1}-x_{n} \approx 0$ , 则式子可以转化为：
$\Delta x=-\frac{f^{t}\left(x_{n}\right)}{f^{\prime \prime}\left(x_{n}\right)}=-\frac{J}{H}$
也就是说：
$\Delta x=-J$
这样，就可以求出能够取得函数 $f (x)$ 的极值点, 继而算出函数 $f (x)$ 的极值。

由于牛顿法需要算二阶导数，如果高阶的话，需要算海塞矩阵，这里是有三个缺陷：

要求给定的方程需要二阶可导
非凸函数的海森矩阵不一定有逆
数据较大的时候，海塞矩阵的计算量偏大

因此，需要思考别的方法来进行最小二乘问题的优化和求解。

2-5 🔖 高斯牛顿法

https://zhuanlan.zhihu.com/p/113946848

注意：这里雅克比 $J = A$ ，因为这里的雅克比 $J$ 是相对于 $f = A X$ 来说的，并不是针对最小二乘来说的

如果代入到最小二乘问题中，牛顿法和梯度下降法都是针对目标函数 $F\left(x_{k}\right)$ 来进行求解的，这样，就不可避免的需要求得海塞矩阵 $H$ ，所以，为了避免这个问题，我们选取了误差函数 $f (x)$ 来进行优化求解：
$\min F(x)=\frac{1}{2}\|f(x)\|_{2}^{2}$
那么，我们从上面的迭代步骤2中可以看到：

1、给定某个初始值 $x_{0}$ ;
2、对于第 $k$ 次迭代，寻找一个增量 $\Delta x_{k}$ , 使得误差 $\left\|f\left(x_{k}+\Delta x_{k}\right)\right\|_{2}^{2}$ 达到极小值
3、若 $\Delta x_{k}$ 足够小，则停止迭代 ;
4、否则, 令 $x_{k+1}=x_{k}+\Delta x_{k}$ , 返回第2步。

那么，我们对 $f(x+\Delta x)$ 进行一阶泰勒展开。
$f(x+\Delta x) \approx f(x)+J(x)^{T} \Delta x+o(\Delta x)$
我们需要求 $\Delta x$ 使得上面的式子 $\|f(x+\Delta x)\|_{2}^{2}$ 有最小值, 所以，我们可以得到最小二乘问题为：
$\Delta x^{*}=\arg \min \frac{1}{2}\|f(x+\Delta x)\|_{2}^{2} \approx \arg \min \frac{1}{2}\left\|f(x)+J(x)^{T} \Delta x\right\|_{2}^{2}$

为了求极值，对其求导：
$m(x)=\frac{1}{2}\left\|f(x)+J(x)^{T} \Delta x\right\|^{2}=\frac{1}{2}\left(f(x)+J(x)^{T} \Delta x\right)^{T}\left(f(x)+J(x)^{T} \Delta x\right) \\ =\frac{1}{2}\left(\|f(x)\|^{2}+2 f(x) J(x)^{T} \Delta x+\Delta x^{T} J(x) J(x)^{T} \Delta x\right.$
故，对其求导可以得到：
$m^{\prime}(x)=J(x) f(x)+J(x) J(x)^{T} \Delta x$
则，此时可以转化为线性求解问题：
$m^{\prime}(x)=0 \quad \rightarrow \quad J(x) J(x)^{T} \Delta x=-J(x) f(x)$
令 $J(x) J(x)^{T}$ 定义为 $H (x)$ , 令 $- J (x) f (x)$ 定义为 $g (x)$ , 则此时变为了：
$\Delta x=g \quad \text { s.t } \quad H=J J^{T} \quad \& \quad g=-J f$
这样，就可以优化求解了。上面的最小二乘的优化步骤就可以变为 :

1、给定某个初始值 $x_{0}$ ;

2、对于第k次迭代，求出当前的雅可比矩阵 $J\left(x_{k}\right)$ 和误差 $f\left(x_{k}\right)$ ;

3、求解增量方程 : $\Delta x_{k}=g$ ;

4、若 $\Delta x_{k}$ 足够小，则停止迭代 ;

5、否则，令 $x_{k+1}=x_{k}+\Delta x_{k}$ , 返回第2步。

相比较于传统的最小二乘求解方法，只更改了两个步骤。

该方法的优点和缺点如下：
优点：

避免了求海塞矩阵，大大减少了计算量。
缺点：
为了求解 $H^{-}$ , 需要 $H$ 矩阵可逆, 但是实际上 $J J^{T}$ 只有半正定性，所以，当为奇异矩阵的时
候，稳定性较差，算法不收敘。
如果求出来的步长 $\Delta x_{k}$ 太大，会导致其局部近似不精确，严重的时候，可能无法保证迭代收敘。
容易和梯度下降法一样，陷入钻齿状，导致迭代次数较长。
不过，为了能够更好的进行最小二乘问题的求解，我们可以使用列文伯格-马夸特法 $(\mathrm{LM})$ 来进行求解。

2-6 🔖 LM法

为什么选择LM法？

原因一：如果 $J(x)^{T} \Delta x=-J(x) f(x)$ 中的矩阵 $J_{k}^{\top} J_{k}$ 是病态或奇异时，线性方程组的求解就会遇到困难, 此时基本的对策是正则化的方法, 即
$\left(J_{k}^{T} J_{k}+\alpha I\right) d=-J_{k}^{T} f^{(k)}$
原因二：在高斯牛顿法的缺点中，可以看到，有一点使容易进入锯齿状，导致迭代的次数较长。所以，为了避免其步长过大导致的问题，该方法提出了信赖区域，设定一个区域。使得步长能够受到控制

在更新迭代的过程中，为了判定近似值的好坏，我们设定了一个评判指标：
$\rho=\frac{f(x+\Delta x)-f(x)}{J(x)^{T} \Delta x}$
这个指标就是我们的近似指标，可以看到其分为以下几种情况：

$\rho$ 接近1, 近似是好的, 不需要更改;
$\rho$ 太小, 则实际减少的值小于近似减少的值，近似较大，需要缩小近似的范围;
$\rho$ 太大, 则实际减少的值大于近似减少的值，近似较小，需要扩大近似的范围。

这样的话，就可以动态调整步长了。

通过近似指标，我们可以设定信赖区域的大小 $_{0}$ 当没有接近我们设定的间值，则不断调整动态区域，直到找到好的近似结果。

当找到符合要求的近似结果后，就可以进行后续正常的迭代更新了。

因此，使用该信赖区域后，可以更新算法流程：

1、给定某个初始值 $x_{0}$ ;
2、对于第 $k$ 次迭代，在高斯牛顿法的基础上加入信赖区域：
$\min \frac{1}{2}\left\|f\left(x_{k}\right)+J\left(x_{k}\right)^{T} \Delta x_{k}\right\|^{2}, \quad \text { s.t } \quad\left\|D \Delta x_{k}\right\|^{2} \leq \mu$
其中， $\mu$ 是信赖半径， $D$ 为系数矩阵。
3、计算近似指标 $\rho$ :
$\rho=\frac{f(x+\Delta x)-f(x)}{J(x)^{T} \Delta x}$
4、根据经验值，设定：

若 $\rho>\frac{3}{4}$ , 则设置 $\mu=2 \mu$ , 跳转第6步 $;$
若 $\rho<\frac{1}{4}$ , 则设置 $\mu=0.5 \mu$ , 跳转第6步
若 $\rho$ 大于设定的间值，则跳转至第5步，求解 $\Delta x_{k}$ , 令 $x_{k+1}=x_{k}+\Delta x_{k \circ}$

5、求解增量方程 : $(H+\lambda I) \Delta x_{k}=g$ ;

6、若 $\Delta x_{k}$ 足够小，则停止迭代，否则，返回第2步。

至于增量方程的获取，可以通过拉格朗日函数来求解：
$\min \frac{1}{2}\left\|f(x)+J(x)^{T} \Delta x\right\| \quad \text { s.t } \quad|| D \Delta x<\mu \|_{2}$
构建拉格朗日函数， $\lambda$ 是系数因子：
$L(\Delta x, \lambda)=\frac{1}{2}\left\|f(x)+J(x)^{T} \Delta x\right\|^{2}+\frac{\lambda}{2}\left(\|D \Delta x\|^{2}-\mu\right)$
这样的话，化简后求导就可以得到：
$J^{T}(x) \Delta x+\lambda D^{T} D \Delta x=0$
我们化简后得到：
$\left(J J^{T}+\lambda D^{T} D\right) \Delta x=-J f$
在本文中, 我们令 $H=J J^{T}, g=-Jf$ 在实际使用中, 通常用 $I$ 来代替 $D^{T} D$ 。所以，公式就变为：
$(H+\lambda I) \Delta x_{k}=g$
这样，就可以得到对应的增量方程了。
代入算法流程中，最终就可以优化得到最小二乘问题的极小值了。

2.7 🔖 几种方法的联系与优缺点

最速下降法：直观上将本算法十分简单，直接按照梯度的反方向下降即可；缺点是过于贪心，容易呈锯齿状下降，从而增加迭代次数。
牛顿法：相对而言也非常直观，同时由于引入了二阶导数，可以处理一阶导为0的情况；但缺点是二阶导数具有非常大的计算量。
高斯牛顿法：在牛顿法的基础上进行了一定程度的简化，使用 $J^{T}J$ 代替海塞矩阵，避免了二阶导数的计算；缺点在于 $J^{T}J$ 很容易病态，导致无法得到正确的结果。
LM法：通过引入阻尼项使得 $J^{T}J$ 不那么容易病态，并且可以通过调整阻尼完成在梯度法和牛顿法之间切换；缺点不太清楚。

牛顿法： $\quad H \Delta x=-J \quad$ s.t $\quad H=f^{\prime \prime}\left(x_{k}\right), J=f^{\prime}\left(x_{k}\right)$
梯度下降法： $\quad \Delta x=-\gamma J \quad$ s.t $\quad J=f^{t}\left(x_{k}\right)$
高斯牛顿法： $\Delta x=g \quad$ s.t $\quad H=J J^{T}, \quad g=-J f$
列文伯格-马夸特法： $(H+\lambda I) \Delta x_{k}=g \quad$ s.t $\quad H=J J^{T}, g=-J f$

其实，这四种方法在最小二乘的问题求解中，也是有着联系的。

我们设定最小二乘问题为：
$\min F(x)=\frac{1}{2}\|f(x)\|_{2}^{2}$
根据针对求解的是目标函数还是误差函数，可以将问题进行分类：

针对目标函数 $F (x)$ 优化

对于目标函数 $F (x)$ 进行一阶泰勒展开：
$F\left(x_{k}+\Delta x_{k}\right) \approx F\left(x_{k}\right)+J\left(x_{k}\right)^{T} \Delta x_{k}$
此时，此时变成求最小值的问题, 则：
$\Delta x_{k}^{*}=\arg \min \left(F\left(x_{k}\right)+J\left(x_{k}\right)^{T} \Delta x_{k}\right)$
故，对其求最小值，可以进行求一阶导数为0：
$\Delta x_{k}=-J\left(x_{k}\right)^{T}$

可以看到，如果增加一个步长 $\lambda$ , 此时的方法就是梯度下降法。

如果对目标函数 $F (x)$ 其进行二阶泰勒展开：
$F\left(x_{k}+\Delta x_{k}\right) \approx F\left(x_{k}\right)+J\left(x_{k}\right)^{T} \Delta x_{k}+\frac{1}{2} \Delta x_{k}^{T} H\left(x_{k}\right) \Delta x_{k}$
则，此时的增量方程为最小二乘问题：
$\Delta x_{k}^{*}=\arg \min \left(F\left(x_{k}\right)+J\left(x_{k}\right)^{T} \Delta x_{k}+\frac{1}{2} \Delta x_{k}^{T} H\left(x_{k}\right) \Delta x_{k}\right)$
则，为了求其最小值, 对 $\Delta x_{k}^{*}$ 进行求导：
$J\left(x_{k}\right)+H\left(x_{k}\right) \Delta x_{k}=0 \rightarrow H * \Delta x=-J$
则此时的方法为牛顿法。