最优化学习笔记(十九)——拟牛顿法(5)BFGS算法

最新推荐文章于 2024-12-14 17:57:31 发布

_Kevin_Duan_

最新推荐文章于 2024-12-14 17:57:31 发布

阅读量8.3k

点赞数

分类专栏：最优化文章标签：优化

本文链接：https://blog.csdn.net/chunyun0716/article/details/54999799

版权

最优化专栏收录该内容

23 篇文章

订阅专栏

一、BFGS算法的更新公式

为了推导BFGS算法，需要用到对偶或者互补的概念，前边已经讨论过hessian矩阵逆矩阵的近似矩阵需要满足以下条件：

H k + 1 Δ g (i) = Δ x (i) 0 \leq i \leq k

$\boldsymbol{H}_{k+1} \Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} \quad 0 \le i\le k$
这是根据

Δg(i)=QΔx(i),0≤i≤k $\Delta\boldsymbol{g}^{(i)} = \boldsymbol{Q}\Delta\boldsymbol{x}^{(i)}, 0 \le i\le k$ 推导出来的。基于这一条件可以构造hessian矩阵逆矩阵近似矩阵的更新公式，秩1算法和DFP算法都是据此而来。但是除了构造逆矩阵的近似矩阵以外，还可以直接构造矩阵

Q $\boldsymbol{Q}$ 的近似矩阵。令矩阵

Bk $\boldsymbol{B}_k$ 表示在第

k $k$ 次迭代中关于矩阵

Q $\boldsymbol{Q}$ 的估计，则

Bk+1 $\boldsymbol{B}_{k+1}$ 应该满足

Δ g (i) = B k + 1 Δ x (i), 0 \leq i \leq k

$\Delta\boldsymbol{g}^{(i)} = \boldsymbol{B}_{k+1}\Delta\boldsymbol{x}^{(i)}, 0 \le i\le k$
可以看出，这组方程与

Hk+1 $\boldsymbol{H}_{k+1}$ 应该满足的方程十分相似，唯一的区别在于

Δg(i) $\Delta\boldsymbol{g}^{(i)}$ 和

Δx(i) $\Delta\boldsymbol{x}^{(i)}$ 互换。因此，给定关于

Hk $\boldsymbol{H}_{k}$ 的更新公式，交换

Δg(i) $\Delta\boldsymbol{g}^{(i)}$ 和

Δx(i) $\Delta\boldsymbol{x}^{(i)}$ 的位置，并将

Hk $\boldsymbol{H}_{k}$ 替换为

Bk $\boldsymbol{B}_{k}$ ，就可以得到

Bk $\boldsymbol{B}_{k}$ 的更新公式。
在BFGS算法中，矩阵

Bk $\boldsymbol{B}_{k}$ 对应着DFP算法的

Hk $\boldsymbol{H}_{k}$ .满足这两种结构的两类公式称为对偶或互补的。
已知DFP算法中关于

Hk $\boldsymbol{H}_{k}$ ，即hessian矩阵逆矩阵的近似矩阵的更新公式为：

H D F P k + 1 = H k + Δ x ( k ) Δ x ( k ) T Δ x ( k ) T Δ g ( k ) - H k Δ g ( k ) Δ g ( k ) T H k Δ g ( k ) H k Δ g ( k ) T

$\boldsymbol{H}_{k+1}^{DFP} = \boldsymbol{H}_{k} + \frac{\Delta\boldsymbol{x}^{(k)}\Delta\boldsymbol{x}^{(k)T}}{\Delta\boldsymbol{x}^{(k)T}\Delta\boldsymbol{g}^{(k)}} - \frac{\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)}\Delta\boldsymbol{g}^{(k)T}\boldsymbol{H}_{k}}{\Delta\boldsymbol{g}^{(k)}\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)T}}$
利用互补概念，可以得到

Bk $\boldsymbol{B}_{k}$ ,即hessian矩阵的近似矩阵为：

B k + 1 = B k + Δ g ( k ) Δ g ( k ) T Δ g ( k ) T Δ x ( k ) - B k Δ x ( k ) Δ x ( k ) T B k Δ x ( k ) B k Δ x ( k ) T

$\boldsymbol{B}_{k+1} = \boldsymbol{B}_{k} + \frac{\Delta\boldsymbol{g}^{(k)}\Delta\boldsymbol{g}^{(k)T}}{\Delta\boldsymbol{g}^{(k)T}\Delta\boldsymbol{x}^{(k)}} - \frac{\boldsymbol{B}_{k}\Delta\boldsymbol{x}^{(k)}\Delta\boldsymbol{x}^{(k)T}\boldsymbol{B}_{k}}{\Delta\boldsymbol{x}^{(k)}\boldsymbol{B}_{k}\Delta\boldsymbol{x}^{(k)T}}$
为了获得hessian矩阵逆矩阵的近似矩阵的更新公式，只需对矩阵

Bk+1 $\boldsymbol{B}_{k+1}$ 求逆即可。

二、谢尔曼——莫里森公式

引理如果矩阵 $\boldsymbol{A}$ 非奇异， $\boldsymbol{u}$ 和 $\boldsymbol{v}$ 是列向量，满足 $1 + \boldsymbol{v}^T\boldsymbol{A}^{-1}\boldsymbol{u} \ne 0$ ，那么 $\boldsymbol{A} + \boldsymbol{uv}^T$ 非奇异，其逆矩阵可以用 $\boldsymbol{A}^{-1}$ 表示，如下：

(A + u v T) - 1 = A - 1 - ( A - 1 u ) ( v T A - 1 ) 1 + v T A - 1 u

$(\boldsymbol{A} + \boldsymbol{uv}^T)^{-1} = \boldsymbol{A}^{-1} - \frac{(\boldsymbol{A}^{-1}\boldsymbol{u})(\boldsymbol{v}^T\boldsymbol{A}^{-1})}{1 + \boldsymbol{v}^T\boldsymbol{A}^{-1}\boldsymbol{u}}$
对应

Bk+1 $\boldsymbol{B}_{k+1}$ 应用2次引理，可得：

H B F G S k + 1 = H k + (1 + Δ g ( k ) T H k Δ g ( k ) Δ g ( k ) T Δ x ( k )) Δ x ( k ) Δ x ( k ) T Δ x ( k ) T Δ g ( k ) - H k Δ g ( k ) Δ x ( k ) T + ( H k Δ g ( k ) Δ x ( k ) T ) T Δ g ( k ) T Δ x ( k )

$\boldsymbol{H}_{k+1}^{BFGS} = \boldsymbol{H}_{k} + (1 + \frac{\Delta\boldsymbol{g}^{(k)T}\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)}}{\Delta\boldsymbol{g}^{(k)T}\Delta\boldsymbol{x}^{(k)}})\frac{\Delta\boldsymbol{x}^{(k)}\Delta\boldsymbol{x}^{(k)T}}{\Delta\boldsymbol{x}^{(k)T}\Delta\boldsymbol{g}^{(k)}}-\frac{\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)}\Delta\boldsymbol{x}^{(k)T} + (\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)}\Delta\boldsymbol{x}^{(k)T})^T}{\Delta\boldsymbol{g}^{(k)T}\Delta\boldsymbol{x}^{(k)}}$
这就是BFGS算法中关于

Bk $\boldsymbol{B}_{k}$ 的更新公式。BFGS算法保持了拟牛顿法的一切性质，包括共轭方向的性质，也能够使得近似矩阵一直保持正定。
当迭代过程中一维搜索的精度不够高时，BFGS算法仍然比较稳健。这一性质有助于将计算资源从追求高精度的一维搜索中释放出来。就效率而言，BFGS算法要远超DFP算法。