从牛顿法到L-BFGS的算法演变

最新推荐文章于 2022-02-21 14:50:44 发布

DASEason

最新推荐文章于 2022-02-21 14:50:44 发布

阅读量4.2k

点赞数 1

分类专栏：数学建模机器学习数据挖掘常用基本算法知识整理文章标签： BFGS L-BFGS 拟牛顿法牛顿法 DFP算法

本文链接：https://blog.csdn.net/qq547276542/article/details/77920143

版权

本文介绍了非线性优化中的牛顿法及其改进版，包括阻尼牛顿法、拟牛顿法、DFP算法、BFGS算法和L-BFGS算法。牛顿法因计算复杂性和对目标函数的严格要求而受限，拟牛顿法通过近似海森矩阵解决这些问题。BFGS算法成为常用方法，而L-BFGS通过限制存储降低了内存开销，适用于大数据环境。

摘要由CSDN通过智能技术生成

前言

(本文主要学习自该博主的文章：http://blog.csdn.net/itplus，以下是本人的笔记，主要记录了结论部分，省略了推导的部分。对具体推导过程有兴趣的同学请访问原博主的博客~)

拟牛顿法是求解非线性优化问题最有效的方法之一，其中DFP方法，BFGS方法以及L-BFGS方法都是重要的拟牛顿法。我们现在考虑如下无约束的极小化问题：

$min x f (x), 其中 x = (x 1, x 2, . . ., x N) T \in R N$ $\min_xf(x)\quad,其中x=(x_1,x_2,...,x_N)^T\in R^N$
这里我们假定f为凸函数，且两阶连续可微，并且记该极小化问题的解为 $x^*$ 。

牛顿法

基本思想：在现有极小点估计值的附近对f(x)做二阶泰勒展开，进而找到极小点的下一个估计值。

当特征向量长度N=1时，可以构造如下的迭代格式，使f(x)收敛到极小点：

x k + 1 = x k - f ' ( x k ) f ″ ( x k ), k = 0, 1, . . .

$x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)},\quad k=0,1,...$
当N>1的情况下，需要对二阶泰勒展开做推广。设

∇f $\nabla f$ 为f的梯度向量（记做

gk $g_k$ ），

∇2f $\nabla^2f$ 为f的海森矩阵（Hessian matrix，记做

Hk $H_k$ ），其定义分别为：

\nabla f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial x 1 \partial f \partial x 2 . . . \partial f \partial x N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, \nabla 2 f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 . . . \partial 2 f \partial x N \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 . . . \partial 2 f \partial x N \partial x 2 . . . . . . . . . . . . \partial 2 f \partial x 1 \partial x N \partial 2 f \partial x 2 \partial x N . . . \partial 2 f \partial x 2 N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ N * N

$\nabla f=\begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ ... \\ \frac{\partial f}{\partial x_N} \end{bmatrix},\quad \nabla ^2f= \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} &\frac{\partial^2 f}{\partial x_1 \partial x_2}&...&\frac{\partial^2 f}{\partial x_1 \partial x_N}\\ \frac{\partial^2 f}{\partial x_2 \partial x_1} &\frac{\partial^2 f}{\partial x_2^2}&...&\frac{\partial^2 f}{\partial x_2 \partial x_N}\\ ... &...&...&...\\ \frac{\partial^2 f}{\partial x_N \partial x_1}&\frac{\partial^2 f}{\partial x_N \partial x_2}&...&\frac{\partial^2 f}{\partial x_N^2} \end{bmatrix}_{N*N}$
于是我们同样可以构造出迭代格式（需要

Hk $H_k$ 非奇异，即行列式不为0的方阵）

x k + 1 = x k - H

最低0.47元/天解锁文章

DASEason

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
从牛顿法到L-BFGS的算法演变

前言(本文主要学习自该博主的文章：http://blog.csdn.net/itplus，以下是本人的笔记，主要记录了结论部分，省略了推导的部分。对具体推导过程有兴趣的同学请访问原博主的博客~) 拟牛顿法是求解非线性优化问题最有效的方法之一，其中DFP方法，BFGS方法以及L-BFGS方法都是重要的拟牛顿法。我们现在考虑如下无约束的极小化问题： >minxf(x),其中x=(x1,x2
复制链接

扫一扫