拟 Newton法

最新推荐文章于 2023-11-05 12:38:07 发布

JasonQ_NEU

最新推荐文章于 2023-11-05 12:38:07 发布

阅读量906

点赞数 2

分类专栏：机器学习最优化文章标签：最优化机器学习

本文链接：https://blog.csdn.net/u012430664/article/details/78526908

版权

机器学习同时被 2 个专栏收录

14 篇文章 7 订阅

订阅专栏

最优化

11 篇文章 5 订阅

订阅专栏

在讲解Newton法是我们提到了Newton法的一些缺点，其中一些缺点已经用修正Newton法解决，还有一些缺点，比如在每次迭代过程中我们都需要计算Hesse矩阵以及它的逆矩阵，这个过程所需的计算量非常大，尤其是在变量维度增大的时候，这将会抵消掉Newton法收敛速度快的优点。拟Newton法就是在保证Newton法迭代速度快的基础上，摆脱了Hesse矩阵的计算。

基本思想

考虑Newton法的迭代公式

x k + 1 = x k - G - 1 k g k (1)

$x_{k+1}=x_k-G_k^{-1}g_k\tag1$ 其中

gk $g_k$ 为函数

f(x) $f(x)$ 在点

xk $x_k$ 处的导数，

Gk $G_k$ 为函数在点

xk $x_k$ 处的Hesse矩阵。在Newton法中

G−1k $G_k^{-1}$ 会消耗大量的计算量，我们想使用一个近似矩阵

Hk=H(xk) $H_k=H(x_k)$ 来代替

Gk $G_k$ ，这样Newton迭代公式就变成了

x k + 1 = x k - H k g k (2)

$x_{k+1}=x_k-H_kg_k\tag2$ 其中

−Hkgk $-H_kg_k$ 便是第k次迭代的搜索方向，考虑更一般的迭代公式

x k + 1 = x k - t k H k g k (3)

$x_{k+1}=x_k-t_kH_kg_k\tag3$ 其中

tk $t_k$ 为步长因子，可以通过直线搜索来确定。
那么问题的关键便是如何求解

Hk $H_k$ ，类似于求解最优化问题，我们可以使用一个矩阵序列

{Hk} $\{H_k\}$ 来逼近Hesse矩阵的逆

G−1k $G_k^{-1}$ ，但是我们应该如何来确定这个矩阵序列？为了使

Hk $H_k$ 与

G−1k $G_k^{-1}$ 近似，同时又要容易计算，我们需要对

Hk $H_k$ 附加条件。
(1)要求

{Hk} $\{H_k\}$ 中的每一个矩阵都是对称正定矩阵，这样可以保证迭代方向为下降方向。
注：公式(3)的搜索方向为

pk=−Hkgk $p_k=-H_kg_k$ ，为了使搜索方向为下降方向，

pk $p_k$ 需要满足

gTkpk<0 $g_k^Tp_k\lt 0$ ，即

- g T k H k g k < 0

$-g_k^TH_kg_k\lt 0$ 当

Hk $H_k$ 为对称正定矩阵时，上式必然成立，此时的搜索方向一定为下降方向。
(2)为了使

Hk $H_k$ 确实与

G−1k $G_k^{-1}$ 近似，要求

{Hk} $\{H_k\}$ 必须满足拟Newton条件

H k + 1 (g k + 1 - g k) = x k + 1 - x k (4)

$H_{k+1}(g_{k+1}-g_k)=x_{k+1}-x_k\tag4$
推导：假设目标函数

f(x) $f(x)$ 有连续二阶偏导数，我们可以在目标函数

f(x) $f(x)$ 在

xk+1 $x_{k+1}$ 处做Taylor展开，得到

f (x) \approx f (x k + 1) + g T k + 1 (x - x k + 1) + 1 2 (x - x k + 1) T G k + 1 (x - x k + 1) (5)

$f(x)\approx f(x_{k+1})+g_{k+1}^T(x-x_{k+1})+\frac12(x-x_{k+1})^TG_{k+1}(x-x_{k+1})\tag5$ 对公式(5)求偏导数可得

g (x) \approx g k + 1 + G k + 1 (x - x k + 1)

$g(x)\approx g_{k+1}+G_{k+1}(x-x_{k+1})$ 令

x=xk $x=x_k$ 可以得到

g (x k) = g k + 1 + G k + 1 (x k - x k + 1)

$g(x_k)=g_{k+1}+G_{k+1}(x_k-x_{k+1})$ 当

Gk+1 $G_{k+1}$ 正定的时，可以得到

G - 1 k + 1 (g k + 1 - g k) \approx x k + 1 - x k

$G_{k+1}^{-1}(g_{k+1-g_k})\approx x_{k+1}-x_k$ 因为具有正定Hesse矩阵的函数在极小点附近可以用二次函数更好的近似，所以如果我们使

Hk+1 $H_{k+1}$ 满足

H - 1 k + 1 (g k + 1 - g k) = x k + 1 - x k (6)

$H_{k+1}^{-1}(g_{k+1}-g_k)= x_{k+1}-x_k\tag6$ 那么至少在极小点附近，

Hk+1 $H_{k+1}$ 能更好的近似于

G−1k+1 $G_{k+1}^{-1}$ ，我们称上式为 拟Newton条件或者 拟Newton方程。
(3)为了易于计算，我们可以使用迭代公式

H k + 1 = H k + E k (7)

$H_{k+1}=H_k+E_k\tag7$ 我们把上式称为校正公式，

Ek $E_k$ 称为校正矩阵。

Ek $E_k$ 可以有确定公式来计算，不同的

Ek $E_k$ 对应不同的拟Newton算法，但是

Ek $E_k$ 必须满足拟Newton条件，即

(H k + E k) (y k + 1 - y k) = (x k = 1 - x k)

$(H_k+E_k)(y_{k+1}-y_k)=(x_{k=1}-x_k)$ 即

E k (g k + 1 - g k) = (x k + 1 - x k) - H k (g k + 1 - g k) (8)

$E_k(g_{k+1}-g_k)=(x_{k+1}-x_k)-H_k(g_{k+1}-g_k)\tag8$ 。

通过以上分析，我们可以得到拟Newton算法的一般格式，如下。

已知：目标函数 $f(x)$ 及其梯度 $g(x)$ ，H中值准则的终止限 $\epsilon_1，\epsilon_2，\epsilon_3$
(1)选定初始点 $x_0$ ；计算 $f_0=f(x_0)，g_0=g(x_0)$ ，选定初始对称正定矩阵 $H_0$ (可以取 $H_0=I$ )；置 $k=0$
(2)计算搜索方向 $p_k=-H_kg_k$
(3)做直线搜索，得到 $x_{k+1}$ ;计算 $f_{k+1}=f(x_{k+1})，g_{k+1}=g(x_{k+1})，y_k=g_{k+1}-g_{k}，s_k=x_{k+1}-x_k$
(4)判断H终止准则是够满足：满足，则输出 $x_{k+1}$ ；否则，转(5)
(5)计算 $H_{k+1}=H_k+E_k$ ；置 $k=k+1$ ，转(2)

DFP算法

DFP算法是无约束最优化方法中最有效的方法之一，最初由Davidon提出来，之后Fletcher和Powell对Davidon方法做了改进，才成了DFP算法。

公式推导

考虑如下的校正公式

H k + 1 = H k + α k u k u T k + β k v k v T k (9)

$H_{k+1}=H_k+\alpha_ku_ku_k^T+\beta_kv_kv_k^T\tag9$ 其中

uk $u_k$ ，

vk $v_k$ 是待定的n维向量，

αk $\alpha_k$ ，

βk $\beta_k$ 是待定常数。校正矩阵是

E k = α k u k u T k + β k v k v T k

$E_k=\alpha_ku_ku_k^T+\beta_kv_kv_k^T$ ，所以必须满足公式(8)为简单起见，我们记

yk=gk+1−yk $y_k=g_{k+1}-y_k$ ，

sk=xk+1−xk $s_k=x_{k+1}-x_k$ 。于是有

(α k u k u T k + β k v k v T k) y k = s k - H k y k

$(\alpha_ku_ku_k^T+\beta_kv_kv_k^T)y_k=s_k-H_ky_k$ 即

α k u k u T k y k + β k v k v T k y k = s k - H k y k

$\alpha_ku_ku_k^Ty_k+\beta_kv_kv_k^Ty_k=s_k-H_ky_k$ 满足上式的

uk $u_k$ 和

vk $v_k$ 有无穷多种取法，下面是其中一种。
令

α k u k u T k y k = s k ，

$\alpha_ku_ku_k^Ty_k=s_k，$

β k v k v T k y k = - H k y k

$\beta_kv_kv_k^Ty_k=-H_ky_k$ 由于

uTkyk $u_k^Ty_k$ 和

vTkyk $v_k^Ty_k$ 为一个数量，不是向量，所以可以令

u k = s k

$u_k=s_k$

v k = H k y k

$v_k=H_ky_k$ 可以得到

α k = 1 s T k y k

$\alpha_k=\frac{1}{s_k^Ty_k}$

β k = - 1 y T k H k y k

$\beta_k=-\frac{1}{y_k^TH_ky_k}$ 其中

Hk $H_k$ 为对称正定矩阵。将以上公式带入到公式(9)便可得到 DFP校正公式

H k + 1 = H k + s k s T k s t k y k - H k y k y T k H k y T k H k y k

$H_{k+1}=H_k+\frac{s_ks_k^T}{s_k^ty_k}-\frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}$

算法

在计算过程中由于精度误差等问题，有可能会对 $H_k$ 的正定性和共轭性有影响，最终造成算法失效，可以采取如下做法。在迭代 $n+1$ 次后，重置初始点，然后开始新一轮的迭代。DFP算法描述如下。

已知：目标函数 $f(x)$ 及其梯度 $g(x)$ ，问题的维数n，H中值准则的终止限 $\epsilon_1，\epsilon_2，\epsilon_3$
(1)选定初始点 $x_0$ ，计算计算 $f_0=f(x_0)，g_0=g(x_0)$
(2)置 $H_0=I，p_0=-g_0，k=0$
(3)做直线搜索，找到 $x_{k+1}$ ，计算
$f k + 1 = f (x k + 1) ， g k + 1 = g (x k + 1)$ $f_{k+1}=f(x_{k+1})，g_{k+1}=g(x_{k+1})$
(4)判断H终止准则是够满足：满足，则输出 $x_{k+1}$ ；否则，转(5)
(5)若 $k=n$ ，则置 $x_0=x_{k+1}，f_0=f_{k+1}，g_0=g_{k+1}$ ，转(2);否则转(6)
(6)计算 $y k = g k + 1 - g k$ $y_k=g_{k+1-g_k}$ $s k = x k + 1 - x k$ $s_k=x_{k+1}-x_k$ $H k + 1 = H k + s k s T k s t k y k - H k y k y T k H k y T k H k y k$ $H_{k+1}=H_k+\frac{s_ks_k^T}{s_k^ty_k}-\frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}$ $p k + 1 = - H k + 1 g k + 1$ $p_{k+1}=-H_{k+1}g_{k+1}$ ，置 $k=k+1$ ，转(3)

DFP算法性质

下面给出两条DFP算法的性质，将不再给出证明。
性质1：在DFP算法中，若初始矩阵式对称正定的，则 ${H_k}$ 每一个都是正定的。
性质2：设将DFP算法用于具有正定矩阵 $Q$ 的二次函数。如果(i)初始矩阵 $H_0$ 是对阵正定的(ii)迭代点是互异的，且搜索方向向量一次是 $p_0，p_1，...，p_k(k\le n-1)$ 则有

H k + 1 Q p j = p j j = 0 ， 1 ， . . . ， k

$H_{k+1}Qp_j=p_j\ \ j=0，1，...，k$

p T i Q p j = 0 i, j = 0 ， 1 ， . . . ， k (i > j)

$p_i^TQp_j=0\ \ i,j=0，1，...，k(i>j)$

BFGS算法

BFGS算法是目前为止所公认的最好的拟Newton算法，由Broyden，Fletcher，Goldfarb和Shanno等人提出。校正公式为

H k + 1 = H k + 1 s T k y k [(1 + y T k H - k y k s T k y k) s k s T k - H - k y k s T k - s k y T k H k]

$H_{k+1}=H_k+\frac{1}{s_k^Ty_k}[(1+\frac{y_k^TH-ky_k}{s_k^Ty_k})s_ks_k^T-H-ky_ks_k^T-s_ky_k^TH_k]$

Broyden算法族

拟Newton算法是Newton算法的推广，具有良好的性质。拟Newton法是一族算法，其中最优实用价值的几个算法包含在Broyden算法族中，其校正公式为

H k + 1 = H k + s k s T k y T k s k - H k y k y T k H k y T k H k y k + β (y T k s k) (y T k H k y k) w k w T k (10)

$H_{k+1}=H_k+\frac{s_ks_k^T}{y_k^Ts_k}-\frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}+\beta(y_k^Ts_k)(y_k^TH_ky_k)w_kw_k^T\tag{10}$ 其中

wk=skyTksk−HkykyTkHkyk $w_k=\frac{s_k}{y_k^Ts_k}-\frac{H_ky_k}{y_k^TH_ky_k}$ 。公式中的

β $\beta$ 可以任取实数，每取一个实数，就对应一种拟Newton算法。当

β=0 $\beta = 0$ 时，便是DFP算法；当

β=1sTkyk $\beta=\frac{1}{s_k^Ty_k}$ 时，便是BFGS算法。
Broyden算法族，当

β≥0 $\beta\ge 0$ 且选取的

H0 $H_0$ 是对称正定矩阵时，矩阵序列

{Hk} $\{H_k\}$ 中的每一个都是正定的，即每一次迭代的搜索方向都是下降方向。

JasonQ_NEU

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
拟 Newton法

在讲解Newton法是我们提到了Newton法的一些缺点，其中一些缺点已经用修正Newton法解决，还有一些缺点，比如在每次迭代过程中我们都需要计算Hesse矩阵以及它的逆矩阵，这个过程所需的计算量非常大，尤其是在变量维度增大的时候，这将会抵消掉Newton法收敛速度快的优点。拟Newton法就是在保证Newton法迭代速度快的基础上，摆脱了Hesse矩阵的计算。
复制链接

扫一扫