机器学习训练算法十(列文伯格-马夸尔特法(LM 法))

最新推荐文章于 2024-06-20 12:21:24 发布

黎明鱼儿

最新推荐文章于 2024-06-20 12:21:24 发布

阅读量3.2k

点赞数 14

分类专栏：算法机器学习 matlab 文章标签：机器学习算法 matlab

本文链接：https://blog.csdn.net/u013106652/article/details/122394304

版权

算法同时被 3 个专栏收录

14 篇文章 5 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

matlab

11 篇文章 2 订阅

订阅专栏

连续函数的最优化方法-LM法

1、介绍
2、数学原理
3、阻尼因子更新策略
4、列文伯格方法
5、马夸尔特方法
6、Matlab程序

1、介绍

列文伯格(1944)和马夸尔特(1963)先后对高斯牛顿法进行了改进，求解过程中引入了阻尼因子。
将公式 36 的无约束最小二乘问题转变为公式 44 有约束最小二乘问题，其中， $\frac{1}{2} \times ( \begin{Vmatrix} D\Delta X_k \end{Vmatrix}^2 -\mu )\leqslant 0$ 是信赖区间对应的条件， $D$ 是系数矩阵(列文伯格方法和马夸尔特方法的主要区别就是系数矩阵 $D$ 不同)， $\mu$ 是信赖半径。
$F(X_k+\Delta X_k)\approx \frac{1}{2} \begin{Vmatrix} \\ L(X_k)+\underbrace{J(X_k)}_{L}{^T} \Delta X_k \end{Vmatrix}^2 \qquad ,s.t.( \frac{1}{2} \times ( \begin{Vmatrix} D\Delta X_k \end{Vmatrix}^2 -\mu )\leqslant 0 ) \qquad (公式44)$

2、数学原理

将公式 44 的约束条件引入，可以定义拉格朗日函数 $L a g (X)$ ：
$Lag(\Delta X)\stackrel{\mathrm{def}}{=} \frac{1}{2} \begin{Vmatrix} \\ L(X_k)+\underbrace{J(X_k)}_{L}{^T} \Delta X_k \end{Vmatrix}^2 +{\lambda}_k \times \frac{1}{2} \times ( \begin{Vmatrix} D\Delta X_k \end{Vmatrix}^2 -\mu ) \qquad ,s.t.( {\lambda}_k \geqslant 0 ) \qquad (公式45)$
公式45中 $\underbrace{J(X_k)}_{L}$ 是残差函数 $L(X_k)$ 的雅可比矩阵。当 $\begin{Vmatrix} D\Delta X_k \end{Vmatrix}^2 \geqslant 0$ 的时候，在优化目标函数 $F (X)$ 中引入阻尼因子 ${\lambda}_k$ 作为惩罚项。
该表达式中 $Lag(\Delta X_k)$ 、 $L(X_k)$ 是一个常数， $\underbrace{J(X_k)}_{L}$ 、 $D$ 是一个常数矩阵， $\Delta X_k$ 是一个变量矩阵，即函数 $Lag(\Delta X_k)$ 是以 $\Delta X_k$ 为自变量的二次函数。综上所述，当 $Lag(\Delta X_k)$ 一阶导数为0的时候，函数 $Lag(\Delta X_k)$ 取得极值，可推得：
$Lag'_{\Delta X_k}(\Delta X_k)=0 \qquad (公式46)$
由公式 45、公式 46 可推得：
${\lambda}_k D^TD \Delta X_k + L(X_k) \underbrace{J(X_k)}_{L} + \underbrace{J(X_k)}_{L} \underbrace{J(X_k)}_{L}{^T} \Delta X_k \qquad (公式47)$
即：
${\lambda}_k D^TD \Delta X_k+ \sum_{i=1}^m ( L_i(X_k) \underbrace{J(X_k)}_{L_i} + \underbrace{J(X_k)}_{L_i} \underbrace{J(X_k)}_{L_i}{^T} \Delta X_k ) \qquad (公式48)$
由公式 47 可推得:
$L(X_k) \underbrace{J(X_k)}_{L} + ( \underbrace{J(X_k)}_{L} \underbrace{J(X_k)}_{L}{^T} +{\lambda}_k D^TD ) \Delta X_k \qquad (公式49)$
设：由公式49结合公式26结构形式，可近似推得函数 $F (X)$ 的黑塞矩阵 $\underbrace{H(X_k)}_{F}$ 和雅克比矩阵 $\underbrace{J(X_k)}_{F}$ ：
$\underbrace{H(X_k)}_{F} \stackrel{\mathrm{def}}{\approx} \underbrace{J(X_k)}_{L} \underbrace{J(X_k)}_{L}{^T} \qquad (公式50)$
$\underbrace{J(X_k)}_{F} \stackrel{\mathrm{def}}{\approx} L(X_k) \underbrace{J(X_k)}_{L} \qquad (公式51)$
由公式 49、公式 50、公式 51 可推得：
$\Delta X_k=- ( {\underbrace{H(X_k)}_{F}} + {\lambda}_k D^TD )^{-1} \underbrace{J(X_k)}_{F} \qquad (公式52)$
由公式 52 可推得目标函数 $F (X)$ 的最优化迭代公式：
$X_{k+1}\stackrel{\mathrm{def}}{=} X_{k} -( {\underbrace{H(X_k)}_{F}} + {\lambda}_k D^TD )^{-1} \underbrace{J(X_k)}_{F} \qquad (公式53)$
当阻尼因子 ${\lambda}_k>0$ 的时候，保证 ${\underbrace{H(X_k)}_{F}} + {\lambda}_k D^TD$ 正定，迭代朝着下降方向进行；当 ${\lambda}_k$ 趋近于 0 的时候，退化为高斯牛顿算法；当 ${\lambda}_k$ 趋近于正无穷大的时候，退化为最速下降算法；

3、阻尼因子更新策略

目标函数 $F (X)$ 在 $X=X_k$ 处的不含皮亚诺余项的二阶泰勒公式如下：
$F(X_k+\Delta X_k)\approx F(X_k)+ \underbrace{J(X_k)}_{F}{^T} \Delta X_k ＋\frac{1}{2} {\Delta X_k}^T \underbrace{H(X_k)}_{F} \Delta X_k \qquad (公式54)$
根据公式 50、公式 51 的近似关系和公式 54 可推得：
$U(\Delta X_k)\stackrel{\mathrm{def}}{=} F(X_k+\Delta X_k)\approx F(X_k)+ {\underbrace{J(X_k)}_{L}}^T L(X_k) \Delta X_k ＋\frac{1}{2} {\Delta X_k}^T {\underbrace{J(X_k)}_{L}}^T {\underbrace{J(X_k)}_{L}} \Delta X_k \qquad (公式55)$
阻尼因子 ${\lambda}_k$ 的初始值 ${\lambda}_0$ 的选取， $\underbrace{H_0}_{F} \stackrel{\mathrm{def}}{\approx} \underbrace{J(X_0)}_{L} \underbrace{J(X_0)}_{L}{^T}$ 对角线上面的数 $h_{ii}$ 有关。
${\lambda}_0\stackrel{\mathrm{def}}{=} \tau \times max\begin{Bmatrix} h_{ii} \end{Bmatrix} \qquad ,s.t.( \tau \in[10^{-8},1] ) \qquad (公式56)$
而阻尼因子 ${\lambda}_k$ 的更新可以由增益比 ${\beta}_k$ 来定量分析：
${\beta}_k\stackrel{\mathrm{def}}{=} \frac{F(X_k)-F(X_k+\Delta X_k)}{U(0)-U(\Delta X_k)} \qquad (公式57)$
其中公式57的分子为目标函数 $F(X_k)$ 的值在步长 $\Delta X_k$ 下的实际变化，分母为目标函数 $F(X_k)$ 的值二阶近似的变化，可得出：
如果 ${\beta}_k$ 的值越大，那么目标函数的二阶近似变化对实际变化效果越好，可以缩小 ${\lambda}_k$ 的值接近高斯牛顿算法;
如果 ${\beta}_k$ 的值越小，那么目标函数的二阶近似变化对实际变化效果越差，可以增大 ${\lambda}_k$ 的值接近最速下降算法;
阻尼因子 ${\lambda}_k$ 的 $\text {Nielsen}$ (1991)更新策略如下：
$\begin{aligned} 如果(\beta_k>0): & \qquad \\ &\qquad {\lambda}_k\stackrel{\mathrm{def}}{=} {\lambda}_{k-1} \times max\begin{Bmatrix} \frac{1}{3}，1-(2\beta_k-1)^3 \end{Bmatrix}\\ &\qquad v_k\stackrel{\mathrm{def}}{=}2\\ 否则(\beta_k \leqslant 0): &\\ &\qquad {\lambda}_k\stackrel{\mathrm{def}}{=} {\lambda}_{k-1} \times v_{k-1} \\ &\qquad v_k=2 \times v_{k-1} \end{aligned} \qquad (公式58)$

4、列文伯格方法

在列文伯格方法中，系数矩阵 $D$ 是单位矩阵 $I$ ，信赖区域是一个球形状。

5、马夸尔特方法

在马夸尔特方法中，系数矩阵 $D$ 是 $\underbrace{H(X_k)}_{F} \stackrel{\mathrm{def}}{\approx} \underbrace{J(X_k)}_{L} \underbrace{J(X_k)}_{L}{^T}$ 对角元素的平方根，信赖区域是一个椭球形状。