系列文章
【数值最优化】1. 线搜索方法
【数值最优化】2. 拟牛顿
一、DFP方法, BFGS方法
回顾线搜索方法的迭代公式是 x k + 1 = x k + α k p k x_{k+1}=x_{k}+\alpha_{k}p_{k} xk+1=xk+αkpk, p k = − B k − 1 ∇ f k p_{k}=-B_{k}^{-1}\nabla f_{k} pk=−Bk−1∇fk, 其中 B k B_{k} Bk是 n n n阶对称正定矩阵. 拟牛顿法就是说 B k B_{k} Bk是Hessian矩阵的一个近似.
如何去求下一步的 B k + 1 B_{k+1} Bk+1呢?Hessian矩阵是 ∇ f \nabla f ∇f的导数, 所以自然的一个想法就是secant equation: B k + 1 ( x k + 1 − x k ) = ∇ f k + 1 − ∇ f k . B_{k+1}\left(x_{k+1}-x_{k}\right)=\nabla f_{k+1}-\nabla f_{k}. Bk+1(xk+1−xk)=∇fk+1−∇fk.如果令 s k = x k + 1 − x k = α k p k s_k=x_{k+1}-x_{k}=\alpha_{k}p_{k} sk=xk+1−xk=αkpk, y k = ∇ f k + 1 − ∇ f k y_{k}=\nabla f_{k+1}-\nabla f_{k} yk=∇fk+1−∇fk, 又希望 B k + 1 B_{k+1} Bk+1是正定的, 那就要求curvature condition s k T y k > 0. s_{k}^{\mathsf{T}}y_{k}>0. skTyk>0. 如果选取步长 α \alpha α时用的是Wolfe conditions或者Strong Wolfe conditions, 这个条件就是能被满足的.
如果curvature condition被满足的了, 就能找到对阵正定的 B k + 1 B_{k+1} Bk+1, 但从信息量上来看, 这样的 B k + 1 B_{k+1} Bk+1肯定是不唯一的, 为了求一个唯一解, 可以转化为求解问题 min B ∥ B − B k ∥ \min_{B}\|B-B_{k}\| Bmin∥B−Bk∥ subject to B = B T , B s k = y k . \text{subject to }\quad B=B^{\mathsf{T}},\quad Bs_{k}=y_{k}. subject to B=BT,Bsk=yk.
选取合适的范数求解上面这个问题可以得到一个矩阵迭代公式 (DFP) B k + 1 = ( I − ρ k y k s k T ) B k ( I − ρ k s k y k T ) + ρ k y k y k T , \text{(DFP)}\quad B_{k+1}=(I-\rho_k y_k s_k^{\mathsf{T}})B_{k}(I-\rho_k s_{k} y_{k}^{\mathsf{T}})+\rho_{k}y_{k}y_{k}^{\mathsf{T}}, (DFP)Bk+1=(I−