二阶优化方法——牛顿法、拟牛顿法(BFGS、L-BFGS)

最新推荐文章于 2025-03-14 23:40:18 发布

ty44111144ty

最新推荐文章于 2025-03-14 23:40:18 发布

阅读量8k

点赞数 8

分类专栏：算法机器学习文章标签：牛顿法拟牛顿法 LBFGS BFGS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ty44111144ty/article/details/101124123

版权

本文介绍了二阶优化方法中的牛顿法和拟牛顿法，包括牛顿法的快速收敛特性及其计算Hessian矩阵的挑战，以及拟牛顿法如何通过正定矩阵近似解决这一问题。详细讲解了BFGS和L-BFGS算法的原理和迭代步骤，分析了它们的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：二阶优化方法——牛顿法、拟牛顿法(BFGS、L-BFGS)

欢迎关注我的公众号，微信搜 algorithm_Tian 或者扫下面的二维码~

现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~

对于逻辑回归和最大熵模型等以似然函数为最优化目标的问题，一般常用的求解方法有梯度下降法、牛顿法和拟牛顿法等。梯度下降法是一阶优化方法。牛顿法和拟牛顿法是二阶优化方法。

牛顿法和拟牛顿法的优势是收敛速度快，但是牛顿法迭代的每一步都需要求解目标函数的二阶偏导矩阵——海森矩阵（Hessian matrix）的逆矩阵，计算较复杂。拟牛顿法简化了这一点，它通过正定矩阵近似海森矩阵或它的逆矩阵。

本篇博文就介绍二阶最优化方法中的牛顿法和拟牛顿法中的BFGS、LBFGS这几个方法。

1.牛顿法

假设存在一个无约束的最优化问题：最小化目标函数f(x)。

牛顿法就是利用迭代点处的一阶导数（梯度）和二阶导（hessian矩阵）对目标函数进行二次函数近似，在每次迭代中迭代方向都是沿着当前点函数值下降的方向，不断重复这一过程直到求得满足精度的近似极小值。

假设f(x)有二阶连续偏导数，那么对它进行二阶泰勒展开有：

这里，是f(x)在的梯度向量：

是f(x)的hessian矩阵：

=

函数f(x)有极值的必要条件就是在极值点处一阶导数为0，即梯度向量为0。我们对 二阶近似 求导有：</

最低0.47元/天解锁文章

博客等级

码龄17年

17
原创

30
点赞

173
收藏

23
粉丝

关注

私信

热门文章

分类专栏

编辑器使用 1篇
检索
算法 16篇
机器学习 16篇
深度学习 8篇
nlp 8篇

最新评论

二阶优化方法——牛顿法、拟牛顿法(BFGS、L-BFGS)
高性能服务器: 拟牛顿法是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W.C.Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞猛进。拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。
多任务学习模型详解：Multi-gate Mixture-of-Experts（MMoE ，Google，KDD2018）
yichudu: 沙发赞一个

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。