牛顿法

牛顿法被称为牛顿-拉夫逊(Newton-Raphson)方法。牛顿在17世纪提出用来求解方程的根。

假设点x*位函数f(x)的根,则f(x*)=0。

将函数f(x)在点处进行一阶泰勒展开有:

假设点为函数f(x)的根,则有:

那么可以得到:

牛顿法通过迭代的方式求解方程f(x)=0的解。

 

牛顿法求解目标函数极值

对于最优化问题,极值点处函数的一阶导数为0

可以对一阶导数利用牛顿法通过迭代的方式来求得最优解,即相当于求一阶导数对应函数的根。

牛顿法是二阶最优化算法。

对多元函数,一阶导数换成梯度:,二阶导数换成海森(Hessian)矩阵H,

则牛顿法迭代公式为:

牛顿法求解目标函数极值步骤:

1、从t=0开始,初始化为随机值;

2、计算目标函数f(x)在点的梯度和海森矩阵

3、计算移动方向:(一般用线性方程组计算。线性方程组求解可用共轭梯度等方法求解)。

4、根据迭代公式,更新x的值:

5、判断是否满足迭代终止条件。如果满足,循环结束,返回最佳参数和目标函数最小值;否则转到第2步。

与一阶梯度法,移动方向为:

 

拟牛顿法

牛顿法比一般的梯度下降法收敛速度快。

但在高维情况下,计算目标函数的二阶偏导数的复杂度大,而且有时候目标函数的海森矩阵无法保持正定,不存在逆矩阵,此时牛顿法将不再能使用

因此,人们提出了拟牛顿法(Quasi-Newton Methods):不用二阶偏导数构造出可以近似Hessian矩阵(或Hessian矩阵的逆矩阵)的正定对称矩阵,进而再逐步优化目标函数。

不同的Hessian矩阵构造方法产生了不同的拟牛顿法:

BFGS/L-BFGS

 

拟牛顿条件

在t次迭代后,得到

将目标函数f(x)在处进行二阶泰勒展开:

两边同时取梯度运算▽,得到

,令,则

引入记号,则

令B表示H的近似,D表示的近似,根据

得到拟牛顿条件为:

或:

 

BFGS

BFGS算法是Broyden,Fletcher,Goldfarb,Shanno四位研究者发明出来的,被认为是数值效果最好的拟牛顿法,并且具有全局收敛性和超线性收敛速度。

BFGS算法使用迭代法逼近Hessian矩阵:

初始值为单位矩阵,因此关键是如何构造

为了保证矩阵B的正定性,令,代入

,得到:

代入

得到:

不防令,代入

代入:

牛顿法中需要计算Hessian矩阵的逆矩阵。

根据Sherman-Morrison公式,可得到

Sherman-Morrison公式:若A为非奇异方阵,,则

BFGS更新参数的流程:

1、从t=0开始,初始化

2、计算移动方向:

3、更新x的值:

4、

5、若,迭代终止;

6、计算:

7、t=t+1,转第2步。

 

L-BFGS

L-BFGS(limited memory BFGS)不直接存储Hessian矩阵,而是通过存储计算过程中产生的来计算Hessian矩阵,从而减少参数存储所需空间。

BFGS中Hessian矩阵更新公式为:

则:

展开:

一般地:

计算将需要用到。如果只能存储m组,从0开始,可以计算

要丢弃一部分的话,丢弃较早生成的那些

则计算,只存储了,丢弃了

由于丢弃了部分信息,只能近似计算

当t>m+1时,构造近似公式:

计算是为了得到搜索方向

利用上面的公式,设计快速计算的方法

1、初始化:

2、向后循环:

3、向前循环:

4、

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值