训练数据常用算法之Levenberg–Marquardt（LM）

最新推荐文章于 2025-02-26 11:48:18 发布

Timmy_Y

最新推荐文章于 2025-02-26 11:48:18 发布

阅读量5.3w

点赞数 36

分类专栏：机器学习算法学习文章标签：算法 MATLAB 非线性优化拟合 LevenbergMarquardt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mingtian715/article/details/53579379

版权

机器学习同时被 2 个专栏收录

33 篇文章

订阅专栏

20 篇文章

订阅专栏

本文深入解析了LM算法的工作原理及其在优化问题中的应用。从传统BP算法出发，对比了梯度下降法与牛顿法的特点，并介绍了如何利用雅可比矩阵替代二阶导数计算以提高效率。同时，探讨了LM算法中参数u的调整策略及算法流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引入问题

神经网络训练数据的过程就是不断调整未知参数使得代价函数达到最小值，通常选择均值平方差函数MSE，即解决一个如下问题。

传统BP算法更新参数使用的是最快梯度下降法，即沿梯度的反方向，按一定步长大小，进行参数更新，使的评价函数达到极小值。

hsd = -F'(x)

但是此种方法忽略了二阶导数项，最终阶段为线性收敛，且速度较慢，因此，更多时候是将其作为优化初始阶段所采用方法。

相反，牛顿法使用了二阶导数，最终阶段收敛速度快，收敛性好，但不适合初始阶段。因此常将其与最快梯度下降法结合使用。牛顿法简单推导：

值得注意的是，牛顿法计算出的hn是下降方向是有前提条件的，条件是H(即F''(x))是正定矩阵

因此，若F''（x）正定，则h = hn 否则 h= hsd。

LM法

但是，牛顿法需要时刻计算H矩阵，即二阶导数信息，是很麻烦的一件事情，LM算法的核心思想就是用雅可比矩阵（易计算）代替H矩阵的计算，使得优化效率有了提升。

下面是用雅可比矩阵代替二阶导数的推导

下面用雅可比矩阵来解决问题，首先推导高斯-牛顿法，LM法就是在高斯-牛顿法的基础上加入了一个变量因子。注意F是f的平方，因此我的理解是f作一阶展开就相当于F作二阶展开了。

求F(x)的极小值被转化为了求L(h)极小，求解过程简化。高斯牛顿与牛顿法很像，可以对比一下：

高斯牛顿：L''(h)hgn = -L'(0)，牛顿：F''(x)hn= -F'(x)。这种转化使得不用再计算F的二阶导数

L-M算法与高斯-牛顿类似，如下式描述：

（1）当u=0时，退化为高斯牛顿算法

（2）当u很大时，hlm = -(F'(x))/u，退化为步长较小的梯度下降法

因此在解决了高斯-牛顿法基础之上，LM算法的重点就是如何确定u值。引入一个评价量

该量描述了使用L的下降量对F下降量的近似程度，如果ro较大，说明近似效果较好（可以理解为L下降量很小，接近极值点），可以继续减小u使得LM更接近高斯-牛顿；如果ro较小，说明近似效果较差，因此增大u使得LM更接近梯度法。u和ro的曲线如下图

此外，还需要规定迭代结束条件（3者之一达到即可）：

（1）下降梯度g小于某一阈值

（2）前后两次x的差小于某一阈值

（3）达到最大迭代次数kmax

最后LM算法流程如下：

参考资料（推导非常详细）：Miroslav Balda 的Methods for non-linear least square problems

http://download.csdn.net/detail/mingtian715/9708842

MATLAB代码（基于LM的优化版本）：http://download.csdn.net/detail/mingtian715/9709054

博客等级

码龄13年

56
原创

504
点赞

2614
收藏

423
粉丝

关注

私信

热门文章

分类专栏

最新评论

有关Pca的使用：样本数目和降维数目的关系
scarlett928: 谢谢博主，解决了我一直以来困惑的问题！
有关Pca的使用：样本数目和降维数目的关系
qq_42711025: 那么有什么降维方法可以满足降维后特征数大于样本数，小于原始特征数呢？
MATLAB中GUI的使用技巧（1）之axes
侠客行-正心诚意: 我也是这个，类 Axes 的属性 imshow(f) 无法识别。% f = imread('D:\机器视觉代码\matlab\测试2.jpeg'); % subplot 221 imshow(f); % subplot 222 imhist(f); % ylim('auto'); % q = histeq(f,256); % subplot 223 imshow(q); % subplot 224 imhist(q); % ylim('auto') %类 Axes 的属性 imshow(f) 无法识别???
Scikit-learn实例之Pca+Svm人脸识别(AT&T数据集)
大栗子呀: 因为后面博主修改成了10个特征向量，所以画图的地方将n_col设置小一点等于3就可以了，这样只有9张图，小于10
Scikit-learn实例之Pca+Svm人脸识别(AT&T数据集)
大栗子呀: 我把测试集占的比例改成0.5就有40类了，之前应该是测试集太小了导致有一类不在测试集

大家在看

揭秘用科技玩微信群房卡链接牛牛-金花房卡多少钱

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。