L-BFGS(ensmallen)

最新推荐文章于 2024-05-18 09:48:34 发布

胧月夜い

最新推荐文章于 2024-05-18 09:48:34 发布

阅读量363

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/qq_46013251/article/details/118909975

版权

本文详细介绍了BFGS优化算法及其有限内存版本L-BFGS，包括算法原理、更新规则以及源码实现。通过分析目标函数的二次模型，确定搜索方向和步长，并满足Wolfe条件。L-BFGS通过存储最近几次迭代的曲率信息，减少了存储需求。文章还提供了ensmallen库中的L-BFGS算法实现细节。

摘要由CSDN通过智能技术生成

L-BFGS

BFGS

设 $\mathbf{x} = ( x_1, x_2, \cdots, x_n )$ ， $f(\mathbf{x}) = f(x_1, x_2, \cdots, x_n)$ 是 $\mathbb{R}^n \to \mathbb{R}$ 的标量函数

构造目标函数在迭代点 $x_k$ 处的二次模型：
$m_k(p) = f_k + \nabla f_k^{\mathsf{T}} p + \frac{1}{2} p^{\mathsf{T}} B_k p$
其中， $f_k$ 是该函数在 $k$ 处的值
$B_k$ 是在每次迭代过程中被更新的 $\times n$ 的对称正定阵

则该模型的梯度：
$\nabla m_k(p) = \dfrac{\partial f_k}{\partial p} + \dfrac{\partial (\nabla f_k^{\mathsf{T}} p)}{\partial p} + \dfrac{1}{2} \dfrac{\partial (p^{\mathsf{T}} B_k p)}{\partial p} \\[6pt] = \left[ \dfrac{\partial (\nabla f_k^{\mathsf{T}} p)}{\partial p_1}, \cdots, \dfrac{\partial (\nabla f_k^{\mathsf{T}} p)}{\partial p_n} \right]^{\mathsf{T}} + \dfrac{1}{2} \left[ \dfrac{\partial }{\partial p_1}\sum_{i,j=1}^n b_{ij} p_i p_j , \cdots, \dfrac{\partial }{\partial p_n}\sum_{i,j=1}^n b_{ij} p_i p_j \right]^{\mathsf{T}} \\[6pt] = \left[ \dfrac{\partial f_k}{\partial x_1}, \cdots, \dfrac{\partial f_k}{\partial x_n} \right]^{\mathsf{T}} + \dfrac{1}{2} \begin{bmatrix} b_{11} p_1 + b_{12} p_2 + \cdots + b_{1n} p_n \\ \vdots \\ b_{n1} p_1 + b_{n2} p_2 + \cdots + b_{nn} p_n \end{bmatrix} \\ + \dfrac{1}{2} \begin{bmatrix} b_{11} p_1 + b_{21} p_2 + \cdots + b_{n1} p_n \\ \vdots \\ b_{1n} p_1 + b_{2n} p_2 + \cdots + b_{nn} p_n \end{bmatrix} \\[6pt] = \nabla f_k + \dfrac{1}{2} B_k p + \dfrac{1}{2} B_k^{\mathsf{T}} p \\[6pt] = \nabla f_k + B_k p$
所以极小值 $p_k = - B_k^{-1} \nabla f_k$ 也就是搜索方向，因此下一轮的迭代点 $x_{k+1}$ 为：
$x_{k+1} = x_k + \alpha_k p_k$
其中，步长 $\alpha$ 的选取应确保满足 $\mathtt{Wolfe}$ 条件

而当我们得出新的迭代点 $x_{k+1}$ 时，想要构造一个新的二次模型：
$m_{k+1} (p) = f_{k+1} + \nabla f_{k+1}^{\mathsf{T}} p + \frac{1}{2} p^{\mathsf{T}} B_{k+1} p$

那么 $m_{k+1}$ 的梯度应该和目标函数 $f$ 最近两次的迭代 $x_k, x_{k+1}$ 相等
就要满足：

最低0.47元/天解锁文章

胧月夜い

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
L-BFGS(ensmallen)

L-BFGSBFGS源码参考BFGS设 x=(x1,x2,⋯ ,xn)\mathbf{x} = ( x_1, x_2, \cdots, x_n )x=(x1,x2,⋯,xn)， f(x)=f(x1,x2,⋯ ,xn)f(\mathbf{x}) = f(x_1, x_2, \cdots, x_n)f(x)=f(x1,x2,⋯,xn) 是 Rn→R\mathbb{R}^n \to \mathbb{R}Rn→R 的标量函数构造目标函数在迭代点 xkx_kxk 处的二次模型：mk(p)=fk+
复制链接

扫一扫