迭代求解最优化问题——Levenberg-Marquardt算法

最新推荐文章于 2024-08-14 11:45:20 发布

炽霜

最新推荐文章于 2024-08-14 11:45:20 发布

阅读量6.5k

点赞数 1

分类专栏：算法数值优化文章标签：最优化 lm算法最小二乘法

本文链接：https://blog.csdn.net/frozenspring/article/details/78299652

版权

数值优化同时被 2 个专栏收录

8 篇文章 4 订阅

订阅专栏

算法

6 篇文章 0 订阅

订阅专栏

高斯牛顿法使用的条件

上一篇中提到了线性最小二乘问题 $\min \limits_x ||Ax-b||$ 的的标准方程为 $A^TAx-A^Tb=0$ 。其中x为n维向量，b为m维向量，A为 $m\times n$ 的矩阵。

从标准方程我们可以求出x的解析解，然而这其实隐含了一个条件，就是rank(A)=n。当A秩亏的时候， $rank(A^TA)≤rank(A)<n$ ， $A^TA$ 不可逆。

事实上，这种情况下x的解有无穷多个，此时问题是欠约束的。

我们使用高斯牛顿法的时候，也有同样的限制，当 $rank(J)<n$ 时，理论上 $J^TJ$ 没有逆。但是由于浮点数误差等原因，我们有可能得到一个 $J^TJ$ 的逆，显然此时 $det(J^TJ)$ 非常接近于零，由于 $||\Delta|| = ||(J^TJ)^{-1}J^Tb||=\frac{||J^Tb||}{||det(J^TJ)||}$ ，我们会得到一个非常大的 $\Delta$ 。这显然会导致求解失败。

正则化

为保证每次的迭代步长不过大，我们可以在优化的损失函数里面加入一个阻尼项，于是优化问题变成了 $\min \limits_x ||Ax-b||^2+\lambda||x||^2$ 。

它的标准方程变成了 $(A^TA + \lambda I)x=A^Tb$ ，因为 $A^TA是半正定的$ ，当 $\lambda>0$ 时， $A^TA + \lambda I$ 一定可逆。

对 $\lambda$ 的选取需要特别注意， $\lambda$ 过小时起不到阻尼的作用， $\lambda$ 过大时会使得最终求解的问题偏离原问题。

Levenberg算法

将上述策略应用到高斯牛顿法中，我们就得到了Levenberg算法。对标准方程 $(J^TJ + \lambda I)\Delta=-J^Tb$ 。当 $\lambda$ 接近于零时，方程退化成高斯牛顿法，当 $\lambda$ 很大时， $\Delta = -\frac{1}{\lambda}J^Tb$ ，接近于梯度下降法。

实际进行迭代时，我们可以动态的调整 $\lambda$ 的大小，当损失函数下降较快时减少 $\lambda$ ，当损失函数下降较慢时增加 $\lambda$ ，从而使得迭代同时具备高斯牛顿法（收敛快但不一定能找到最值点）和梯度下降法（稳定但是速度慢）的优点。

Levenberg-Marquardt算法

上述策略中，当 $\lambda$ 很大时 $(J^TJ + \lambda I)$ 的求解对于最终迭代步长并没有什么贡献。Marquardt在此基础上提出我们可以通过Jacobian矩阵来缩放梯度的不同维度，从而在梯度较小的方向也能走得更远，由此将阻尼项改写为 $\lambda diag(J^TJ)$ 。这就是Levenberg-Marquardt算法。

Marquardt也提出了 $\lambda$ 的选择策略。他提出在算法开始时假设两个参数 $\lambda_0$ 和ν >1。分别使用 $\lambda=\lambda_0$ 和 $\lambda= \lambda/ν$ 迭代两次并计算损失函数。如果两次结果都比初始点差，则不断增加阻尼系数，用ν去乘 $\lambda$ ，直到损失函数下降为止。