最优化算法(三)_∥xt x ∥2 2 ≤ 1 μ l t ∥x0 x ∥2 2-CSDN博客

本文链接：https://blog.csdn.net/oBanTianYun/article/details/76944524

牛顿方法

牛顿方法是现在用的比较广泛的最优化算法之一，其特点是收敛速度较快，上一节的梯度下降和随机梯度下降都是一阶收敛，而牛顿方法是二阶收敛。
回忆高等数学里面介绍的二阶泰勒展开有

Q (x) = f (x 0) + \nabla f (x 0) (x - x 0) + ( x - x 0 ) 2 2 ! \nabla 2 f (x 0)

$Q(x)=f(x_0)+\nabla f(x_0)(x-x_0)+\frac{(x-x_0)^2}{2!}\nabla ^2f(x_0)$
而

Q(x) $Q(x)$ 取到极值的条件，也就是最优化条件是

∇Q(x)=0 $\nabla Q(x)=0$ ，可得

\nabla f (x k) + \nabla 2 f (x k) (x - x k) = 0

$\nabla f(x_k)+\nabla ^2f(x_k)(x-x_k)=0$

x k + 1 = x k - (\nabla 2 f (x k)) - 1 \nabla f (x k)

$x_{k+1}=x_k-(\nabla^2 f(x_k))^{-1}\nabla f(x_k)$

x k + 1 = x k - H - 1 k g k

$x_{k+1}=x_k-H_k^{-1}g_k$ 其中

Hk=∇2f(xk),gk=∇f(xk) $H_k=\nabla^2 f(x_k),g_k=\nabla f(x_k)$ ,可以看到牛顿方法在迭代中不但使用了梯度，而且使用了二阶的hessian矩阵。

收敛性分析

假设 $f(x)$ 是二阶可导，强凸，并且Hessian的有界，并且在最优解附近的Lipschitz continuous常数是M，另外 $\begin{Vmatrix}\nabla^2 f(x)^{-1}\end{Vmatrix} \le N$ ，最优解为 $x^*$ 则
由于

\nabla f (x t) - \nabla f (x *) = \int 10 \nabla 2 f (x t + t (x * - x t)) (x t - x *) d x

$\nabla f(x_t) - \nabla f(x^*)=\int_0^1\nabla^2 f(x_t+t(x^*-x_t))(x_t-x^*) \, dx$ 而

x t + 1 - x * = x t - x * - \nabla 2 f (x t) (x t - x *) = \nabla 2 f (x t) - 1 [\nabla 2 f (x t) (x t - x *) - (\nabla f (x t) - \nabla f (x *))]

$x_{t+1}-x^*=x_t-x^*-\nabla^2 f(x_t)(x_t-x^*)=\nabla^2 f(x_t)^{-1}[\nabla^2f(x_t)(x_t-x^*)-(\nabla f(x_t)-\nabla f(x^*))]$
使用上面两式还有Lipschitz continuous可得

∥ ∥ \nabla f (x t) - \nabla f (x *) - \nabla 2 f (x t) (x t - x *) ∥ ∥ = ∥ ∥ ∥ \int 10 [\nabla 2 f (x t + t (x * - x t)) - \nabla 2 f (x t)] (x t - x *) d x ∥ ∥ ∥

$\begin{Vmatrix} \nabla f(x_t) - \nabla f(x^*) - \nabla^2 f(x_t)(x_t-x^*)\end{Vmatrix}=\begin{Vmatrix}\int_0^1[\nabla^2 f(x_t+t(x^*-x_t))-\nabla^2 f(x_t)](x_t-x^*) \,dx\end{Vmatrix}$

= \int 10 ∥ ∥ \nabla 2 f (x t + t (x * - x t)) - \nabla 2 f (x t) ∥ ∥ ∥ ∥ x t - x * ∥ ∥ d x \leq ∥ ∥ x t - x * ∥ ∥ \int 10 M t d x = M 2 ∥ ∥ x t - x * ∥ ∥ 2

$=\int_0^1 \begin{Vmatrix} \nabla^2f(x_t+t(x^*-x_t)) -\nabla^2f(x_t)\end{Vmatrix} \begin{Vmatrix} x_t - x^* \end{Vmatrix} \, dx\le\begin{Vmatrix} x_t - x^*\end{Vmatrix}\int_0^1 Mt\, dx=\frac{M}{2}\begin{Vmatrix}x_t-x^*\end{Vmatrix}^2$
因此可得

∥ ∥ x t + 1 - x * ∥ ∥ \leq M N 2 ∥ ∥ x t - x * ∥ ∥ 2

$\begin{Vmatrix}x_{t+1}-x^*\end{Vmatrix}\le \frac{MN}{2}\begin{Vmatrix}x_t - x^*\end{Vmatrix}^2$

拟牛顿方法

牛顿方法中需要每一步去求解hessian矩阵的逆矩阵是一个计算复杂度较高的操作，所以就出现了拟牛顿方法。拟牛顿方法就是通过近似的方法来求解hessian矩阵或其逆矩阵。具体的由于当 $x=x_{k+1}$ 时

\nabla f (x k + 1) - \nabla f (x k) = H k (x k + 1 - x k)

$\nabla f(x_{k+1})-\nabla f(x_k)=H_k(x_{k+1}-x_k)$
其中

Hk=∇2f(x)k $H_k=\nabla^2 f(x)_k$ ，记

yk=gk+1−gk,sk=xk+1−xk $y_k=g_{k+1}-g_k,s_k=x_{k+1}-x_k$ 得:

y k = H k s k

$y_k=H_ks_k$ 或

H - 1 k y k = s k

$H_k^{-1}y_k=s_k$
以上称为拟牛顿条件
如果

Hk $H_k$ 是正定的话，可以保证牛顿方法的搜索方向

pk $p_k$ 是下降方向，因为hessian矩阵正定的话，由更新迭代的公式可以知道

H−1kgk $H_k^{-1}g_k$ 的方向和梯度

gk $g_k$ 的方向一致(当目标函数为凸时)，并且

x = x k - λ H - 1 k g k

$x=x_k-\lambda H_k^{-1}g_k$ 代入泰勒展开公式中得

f (x) = f (x k) - λ g T k H - 1 k g k

$f(x)=f(x_k)-\lambda g_k^TH_k^{-1}g_k$ 当

λ $\lambda$ 为充分小时，可以保证目标函数递减。
拟牛顿方法用

Gk $G_k$ 作为

H−1k $H_k^{-1}$ 的近似，要求矩阵

Gk $G_k$ 满足同样的条件，第一，

Gk $G_k$ 是正定的，第二,满足拟牛顿条件。并且每次迭代中选择更新矩阵

Gk+1 $G_{k+1}$ 如下

G k + 1 = G k + Δ G k

$G_{k+1}=G_k+\Delta G_k$
BFGS的方法是通过

Bk $B_k$ 去逼近hessian矩阵

Hk $H_k$ 相应的拟牛顿条件为

B k + 1 s k = y k

$B_{k+1}s_k=y_k$ 并且通过上面的Hessian矩阵更新公式

B k + 1 = B k + P k + Q k

$B_{k+1}=B_k+P_k+Q_k$

B k + 1 s k = B k s k + P k s k + Q k s k

$B_{k+1}s_k=B_ks_k+P_ks_k+Q_ks_k$ 且

Pk $P_k$

Qk $Q_k$ 满足如下条件:

P k s k = y k

$P_ks_k=y_k$

Q k s k = - B k s k

$Q_ks_k=-B_ks_k$ 找出适合条件的

Pk $P_k$ 和

Qk $Q_k$ ,得到BFGS算法矩阵

Bk+1 $B_{k+1}$ 的迭代公式:

B k + 1 = B k + y k y T k y T k s k - B k s k s T k B k s T k B k s k

$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^Ts_k}-\frac{B_ks_ks_k^TB_k}{s_k^TB_ks_k}$ 可以证明初始矩阵

B0 $B_0$ 为正定的时候，

Bk $B_k$ 也是正定矩阵。

L-BFGS

拟牛顿方法中减少求逆的时间复杂度，但是又面临另外的一个问题，就是当原问题是一个高维问题时，Hessian矩阵的存储成了一个大的问题，因此有了L-BFGS算法，L-BFGS算法的思想是通过最近的m次 $s_k$ 和 $y_k$ 来近似计算下降方向，并且不用去存储整个Hessian矩阵。具体的推导不介绍了，算法伪代码如下：