l bfgs算法java代码_L-BFGS算法介绍

本文详细介绍了L-BFGS算法,这是一种解决无约束非线性规划问题的高效方法,常用于机器学习。文章从泰勒展开、最速下降法、牛顿法、拟牛顿法等方面进行讲解,特别指出L-BFGS因内存开销少和快速收敛而优于梯度下降。同时,提到了L-BFGS的有限存储变种,适合高维应用场景。此外,还讨论了与L1正则相关的OWL-QN算法以及百度的Shooting算法和Chih-Jen Lin的信赖域牛顿方法。
摘要由CSDN通过智能技术生成

本文由作者林洋港授权网易云社区发布。

一、 L-BFGS是什么

L-BFGS是解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点,在机器学习各类算法中常有它的身影。简单的说,L-BFGS和梯度下降、SGD干的同样的事情,但大多数情况下收敛速度更快,这点在大规模计算中很重要。下图是深度学习Autoencoder模型不同优化方法的比较。

48c3ce8a20e184ea574a606c89d8fa64.png

二、 L-BFGS“之前”的那些方法

这里的“之前”并不是说L-BFGS问世之前就已经存在的方法,而是指为了更好的理解L-BFGS需要了解的其他方法。无约束问题定义:

63238e54fbf43880b642e6f7b3583345.png

我们先从泰勒展开开始,这可以说是本文介绍的所有方法的基础。f在

d64df5d0c2c02747556c1c9dcbc2d968.png的一阶泰勒展开为

d420a3634d47ed33d5100a781eec83da.png

二阶泰勒展开为

b52d47d32862a08ec84f330052b8758f.png

去掉最后的余项,得到

9b5648e30165d263ec3ba948c2969eb3.png

91d0371f4a190ceb82338041ad8e4937.png

2.1 最速下降法(Gradient descent)

CD算法的一个前提条件就是f在

d64df5d0c2c02747556c1c9dcbc2d968.png连续可微,并且在

d64df5d0c2c02747556c1c9dcbc2d968.png处的导数不为0。由公式1可知当第二项<0时f的值将下降。由Cauchy-Schwartz不等式可得

06c6185529b1bbf9a898a070928375ad.png为最速下降方向。因此迭代公式为

8b4de5e132ea898bfac5cbab7bf24a3b.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值