[工程优化]牛顿法的缺陷及拟牛顿法(Newton‘s method)：DFP\BFGS\L-BFGS【附python代码实现】

身披白袍

已于 2023-11-15 16:23:10 修改

阅读量3.1k

点赞数 9

分类专栏：机器学习|数据挖掘|数学模型文章标签：拟牛顿法

于 2019-04-18 16:33:33 首次发布

本文链接：https://blog.csdn.net/Shenpibaipao/article/details/89352840

版权

本文详细介绍了拟牛顿法，包括牛顿法的缺陷及其改进，如阻尼牛顿法和正则化海森矩阵。重点讲解了DFP、BFGS和L-BFGS三种拟牛顿法的实现原理，并提供了Python代码实现。DFP和BFGS方法基于海森矩阵的逆或本身进行逼近，而L-BFGS则是有限内存版本，适用于高维数据。文章还探讨了如何通过Sherman–Morrison公式简化计算。

摘要由CSDN通过智能技术生成

引用

Wikipedia:Quasi-Newton method

下文中的出现的所有源代码，由于码云的链接非注册用户无法查看，因此备份了一下代码文件到Gist上。点此查看

Preliminaries

跟上一篇一样，要读懂这些内容，需要掌握以下内容：

梯度

对于一维函数 $f (x)$ ，其导数定义为：
$f'(x)=\lim \limits_{\Delta x \rightarrow 0} \frac{f(x_0+\small{\Delta} x)-f(x_0)}{\small{\Delta} x}$
对于多维函数 $f(x_1,...,x_n)$ ，对 $x_i$ 求导数 $\frac{df}{dx_i}$ ，将其记为偏导数 $\frac{\partial f}{\partial x_I}$ 。特别的，记录梯度 $\triangledown f(x)$ 或简记为 $\triangledown f$ 为对 $x_i$ 求偏导后的列向量：
$\triangledown f(x)=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},..., \frac{\partial f}{\partial x_1})^T$

海森矩阵(Hessian matrix)

若存在 $f:\R^n \rightarrow \R$ ，即一个多维输入 $x\in\R$ 到一维输出的映射，若其在任意维度上都二阶可导，则定义其海森矩阵：
$\begin{bmatrix} \frac{\partial f^2}{\partial x_1^2} & \frac{\partial f^2}{\partial x_1\partial x_2} & \cdots &\frac{\partial f^2}{\partial x_1 \partial x_n} \\ \frac{\partial f^2}{\partial x_2 \partial x_1} & \frac{\partial f^2}{\partial x_2^2} & \cdots &\frac{\partial f^2}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots& \vdots \\ \frac{\partial f^2}{\partial x_n \partial x_1} & \frac{\partial f^2}{\partial x_n\partial x_2} & \cdots &\frac{\partial f^2}{ \partial x_n^2} \end{bmatrix}$

显然， $H^T = H$ 、 $H$ 的尺寸为 $n\times n$ 。

雅可比矩阵(Jacobian matrix)

若存在 $f:\R^n \rightarrow \R^m$ ，即一个多维输入 $x\in\R^n$ 到多维输出 $f(x)\in\R^m$ 的映射，则 $f$ 的雅可比矩阵：
$\begin{aligned} J &= [ \frac{\partial f}{\partial x_1} \frac{\partial f}{\partial x_2} \cdots \frac{\partial f}{\partial x_n}] \\ &= \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \\ \end{bmatrix} \end{aligned}$

显然，雅可比矩阵的尺寸为 $\times m$ ， $J_{ij} = \frac{\partial f_i}{\partial x_j}$

最低0.47元/天解锁文章

身披白袍

关注

9
点赞
踩
28

收藏

觉得还不错? 一键收藏
3
评论
[工程优化]牛顿法的缺陷及拟牛顿法(Newton‘s method)：DFP\BFGS\L-BFGS【附python代码实现】

牛顿法的缺陷及拟牛顿法(Newton's method)：DFP\BFGS\L-BFGS【附python代码实现】
复制链接

扫一扫