机器学习优化算法L-BFGS及其分布式实现

最新推荐文章于 2022-05-25 15:28:15 发布

大豆芽

最新推荐文章于 2022-05-25 15:28:15 发布

阅读量6.1k

点赞数 5

分类专栏：数据挖掘-分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dadouyawp/article/details/44179599

版权

最近做的科研项目需要用到L-BFGS，这段时间看了不少关于L-BFGS的博客以及论文，在此进行一下小小的总结。

在无约束优化问题中，牛顿法及拟牛顿法是常用的方法，L-BFGS属于拟牛顿法，下面从牛顿法开始说起。

牛顿法，顾名思义，是由伟大的牛顿先生首先提出的（当然有资料显示，在更早前就有人提出相同方法，但可能因为牛顿先生名气过大，冠以他的名字会更火）。我们考虑无约束问题 $min f(x) x\in R^n$ ，牛顿法需要使用Taylor展开，因此我们假设 $f(x)$ 是二阶可微实函数，把 $f(x)$ 在 $x^k$ 处Taylor展开并取二阶近似为

f (x) \approx f (x k) + \nabla f (x k) T (x - x k) + 1 2 (x - x k) T \nabla 2 f (x k) (x - x k) (1)

$f(x)\approx f(x^k)+\nabla f(x^k)^T(x-x^k)+\frac{1}{2} (x-x^k)^T \nabla ^2f(x^k)(x-x^k) (1)$
其中，

∇2f(x) $\nabla ^2f(x)$ 是

f(x) $f(x)$ 在

xk $x^k$ 处的 Hessen矩阵。我们的目标是求

f(x) $f(x)$ 的最小值，而导数为0的点极有可能为极值点，故在此对

f(x) $f(x)$ 求导，并令其导数为0，即

∇f(x)=0 $\nabla f(x)=0$ ，可得

\nabla f (x) = \nabla f (x k) + \nabla 2 f (x k) (x - x k) = 0 (2)

$\nabla f(x)=\nabla f(x^k)+\nabla ^2f(x^k)(x-x^k)=0 (2)$
设

∇2f(x) $\nabla ^2 f(x)$ 可逆，由(2)可以得到牛顿法的迭代公式

x k + 1 = x k - \nabla 2 f (x k) - 1 \nabla f (x k) (3)

$x^{k+1}=x^k-\nabla ^2 f(x^k)^{-1}\nabla f(x^k) (3)$

d=−∇2f(xk)−1∇f(xk) $d=-\nabla ^2 f(x^k)^{-1}\nabla f(x^k)$ 被称为牛顿方向，可以证明牛顿法至少是2阶收敛的，在此由于篇(neng)幅(li)所限，就不进行证明了。

细心的读者可能会发现，我们上面的推导公式，做了很多前提假设，假设了Hessen矩阵 $\nabla ^2f(x)$ 可逆，那么问题来了，如果 $f(x)$ 的Hessen矩阵奇异，或者非奇异但是不正定怎么办？这个时候，我们就需要使用拟牛顿法了，拟牛顿法，同样可以顾名思义，就是模拟牛顿法，用一个近似于 $\nabla ^2f(x) ^{-1}$ 的矩阵 $H_{k+1}$ 来替代 $\nabla ^2f(x) ^{-1}$ 。公式(2)在 $x^{k+1}$ 附近有，

\nabla f (x) = \nabla f (x k + 1) + \nabla 2 f (x k + 1) (x - x k + 1)

$\nabla f(x)=\nabla f(x^{k+1})+\nabla ^2f(x^{k+1})(x-x^{k+1})$ 令

x=xk $x=x^k$ ，则有

\nabla f (x k) = \nabla f (x k + 1) + \nabla 2 f (x k + 1) (x - x k + 1)

$\nabla f(x^k)=\nabla f(x^{k+1})+\nabla ^2f(x^{k+1})(x-x^{k+1})$ 记

p k = x k + 1 - x k

$p^k=x^{k+1}-x^k$

q k = \nabla f (x k + 1) - \nabla f (x k)

$q^k=\nabla f(x^{k+1})-\nabla f(x^k)$ 代入则有，

p k \approx \nabla 2 f (x k + 1) - 1 q k

$p^k\approx \nabla ^2f(x^{k+1})^{-1}q^k$ 拟牛顿法用

Hk+1 $H_{k+1}$ 来替代

∇2f(x)−1 $\nabla ^2f(x) ^{-1}$ ，即

p k = H k + 1 q k (4)

$p^k=H_{k+1}q^k (4)$ 这也被称为拟牛顿条件。在各种拟牛顿法中，一般的构造

Hk+1 $H_{k+1}$ 的策略是，

H</

最低0.47元/天解锁文章

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
5
评论
机器学习优化算法L-BFGS及其分布式实现

最近做的科研项目需要用到L-BFGS，这段时间看了不少关于L-BFGS的博客以及论文，在此进行一下小小的总结。在无约束优化问题中，牛顿法及拟牛顿法是常用的方法，L-BFGS属于拟牛顿法，下面从牛顿法开始说起。牛顿法，顾名思义，是由伟大的牛顿先生首先提出的（当然有资料显示，在更早前就有人提出相同方法，但可能因为牛顿先生名气过大，冠以他的名字会更火）。我们考虑无约束问题 minf(x)x∈Rnmin f
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。