概述
拟牛顿方法类似于最速下降法,在每一步迭代过程中仅仅利用梯度信息,但是通过度量梯度之间的变化,能够产生超线性的收敛效果。本节主要学习一下知识点:
1. 拟牛顿方程推导
2. 几个常见的拟牛顿方法
3. 拟牛顿方法的收敛性
拟牛顿方程
拟牛顿方法既有线搜索的影子也有牛顿方法的思想,下面从两个角度分别介绍拟牛顿方程,即在拟牛顿方法中要遵循的一个原则。
线搜索角度
假设在第K步迭代过程中,对点 xk 进行建模
mk(p)=fk+∇fTk+12pTBkp
,这是一个相对标准的建模过程,在点x_k处寻找下一个搜索方向。该模型满足
mk(0)=fk; ∇mk(0)=∇fTk
。
此时如果B为正定矩阵,则最优解为 pk=−B−1k∇fk 。则下一个迭代值 xk+1=xk+αkpk .
问题来了如何构造有效的 Bk 呢,如果选择Hessian矩阵该方法就为线搜索的牛顿方法。
高人就想出了通过当前点和上一步的搜索点构造该矩阵的方法, 需要满足模型m和目标函数f在 xk,xk+1 保持梯度一致。
此时在 xk+1 处的模型为
mk+1(p)=fk+1+∇fTk+1+12pTBk+1p
,需要满足
xk,xk+1
梯度一致。则有
∇mk+1(xk+1)=∇fk+1∇mk+1(xk)=∇fk
等价于
∇mk+1(0)=∇fk+1∇mk+1(−αkpk)=∇fk
从而有
∇mk+1(−αkpk)=∇fk+1−αkBk+1pk=∇fk
。根据
xk