牛顿法与拟牛顿法总结

最新推荐文章于 2021-11-23 20:28:04 发布

Nick-Hwong

最新推荐文章于 2021-11-23 20:28:04 发布

阅读量6.5k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/nickkissbaby_/article/details/89441360

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1) 牛顿法

假设目标函数为 $f (x)$
牛顿法推导：
将 $f (x)$ 在 $x^k$ 用泰勒公式二阶展开，得
$f(x)=f\left(x^{(k)}\right)+g_{k}^{\mathrm{T}}\left(x-x^{(k)}\right)+\frac{1}{2}\left(x-x^{(k)}\right)^{\mathrm{T}} H\left(x^{(k)}\right)\left(x-x^{(k)}\right)\ \ \ \ \ \ \ \ (1)$
将上边公式对x求导可得（注意 $g_{k}^{\mathrm{T}}$ 与 $H(x^{(k)})$ 都是常数项，自变量已经固定为 $x^{(k)}$ ），得到 $x=x_k$ 邻域内的 $\nabla f(x)$ 的近似函数
$\nabla f(x)=g_{k}+H_{k}\left(x-x^{(k)}\right) \ \ \ \ \ \ \ \ (2)$
由于 $f (x)$ 在 $\nabla f(x)=0$ 的地方得到极值点（假如为凸函数则为最优点），那么直接令 $\nabla f(x)$ 的近似函数(2)等于0即可得到下一次迭代的 $x^{(k+1)}$ 。
令公式（2）等于0，可得牛顿法的迭代公式 $x^{(k+1)}=x^{(k)}-H_{k}^{-1} g_{k} \ \ \ \ \ (3)$
牛顿法的一步到位：当 $f (x)$ 的二阶导是常数时，那么对于 $\nabla f(x)$ 的泰勒展开式就完全没有误差，可以一步到位了！
如当 $f(x)=x^2$ 时，若 $x^0 = 2,g_0=4,H^{-1}_0=0.5$ ，则 $x_1 = 2-4\times 0.5=0$ ，直接就迭代到了最优解 $x = 0$ 。
更新方向正确性：如果 $H_k$ 是正定的，那么可以保证当前的迭代方向（仅仅是方向，不是具体的迭代量） $p_{k}=-\lambda g_{k}$ 是下降方向。 $H_k$ 正定代表当前梯度的导数在任意基方向都是要增大的。由公式（3）可得
$x=x^{(k)}+\lambda p_{k}=x^{(k)}-\lambda H_{k}^{-1} g_{k} \ \ \ \ \ (4)$
将公式（4）代入 $f (x)$ 的一阶泰勒展开公式，可得
$f(x)=f\left(x^{(k)}\right)+g_{k}^{\mathrm{T}}\left(x-x^{(k)}\right)=f\left(x^{(k)}\right)-\lambda g_{k}^{\mathrm{T}} H_{k}^{-1} g_{k} \ \ \ \ \ (5)$
由于 $H_k$ 正定因此 $H_k^{-1}$ 也是正定的，若 $g_{k}!=0$ 可得 $g_{k}^{\mathrm{T}} H_{k}^{-1} g_{k}>0$ 。当 $\lambda$ 为足够小的正数时 $f(x)<f\left(x^{(k)}\right)$ 。
收敛性分析：与梯度下降比较，可以对梯度下降作类似的分析。梯度下降的更新公式为 $x=x^{(k)}-\lambda g_{k}$ ，将其代入 $f (x)$ 的一阶泰勒展开公式
$f(x)=f\left(x^{(k)}\right)+g_{k}^{\mathrm{T}}\left(x-x^{(k)}\right)=f\left(x^{(k)}\right)-\lambda g_{k}^{\mathrm{T}} g_{k} \ \ \ \ \ (6)$
然后我们发现公式（5）和公式（6）可以近似地表示了牛顿法与梯度下降法的区别。公式（5）和公式（6）只有一个地方有区别，就是牛顿法的迭代量是 $\lambda g_{k}^{\mathrm{T}} H_{k}^{-1} g_{k}$ ，而梯度下降的迭代量是 $\lambda g_{k}^{\mathrm{T}} g_{k}$ ，区别在于 $H_{k}^{-1}$ 。
假设目标函数是一个凸函数。当曲线很平缓的时候， $H_{k}$ 会比较小从而 $H_{k}^{-1}$ 会较大导致加大牛顿法的迭代量。当 $H_{k}$ 比较大而 $H_{k}^{-1}$ 比较小的时候曲线比较陡峭，这个时候要走得小心一点慢一点， $H_{k}^{-1}$ 比较小导致牛顿法的迭代量也变小了。这就比较好理解，为什么牛顿法会比梯度下降法收敛得更加快了！

2）拟牛顿法

牛顿法存在的问题：由牛顿法的更新公式（3）可知，每次迭代的时候都需要去算二阶导矩阵hessian矩阵的逆矩阵，这个操作非常复杂。
由公式（2）可以推出
$g_{k+1}-g_{k}=H_{k}\left(x^{(k+1)}-x^{(k)}\right) \ \ (7)$
令 $y_{k}=g_{k+1}-g_{k}$ ， $\delta_{k}=x^{(k+1)}-x^{(k)}$ ，则
$H^{-1}_ky_k = \delta_k \ \ (8)$
公式（8）又称为拟牛顿条件。
拟牛顿法用一个n阶矩阵 $G_k$ 来代替 $H_k^{-1}$ 。拟牛顿法对于 $G_k$ 进行迭代运算
$G_{k+1}=G_{k}+\Delta G_{k} \ \ (9)$

1. DFP(Davidon-Fletcher-Powell)算法

算法：DFP选择用两个附加项来迭代更新
$G_{k+1} = G_k + P_k + Q_k \ \ (10)$
因此可得， $G_{k+1}y_k = G_ky_k + P_ky_k + Q_ky_k$ 。其中 $P_k, Q_k$ 是待定矩阵。为了使 $G_k+1$ 满足拟牛顿条件，要满足
$P_ky_k=\delta_k, \ \ \ \ \ \ \ Q_ky_k=-G_ky_k \ \ (11)$
$P_k$ 与 $Q_k$ 可以这样得到
$P_{k}=\frac{\delta_{k} \delta_{k}^{\mathrm{T}}}{\delta_{k}^{\mathrm{T}} y_{k}}， Q_{k}=-\frac{G_{k} y_{k} y_{k}^{\mathrm{T}} G_{k}}{y_{k}^{\mathrm{T}} G_{k} y_{k}} \ \ \ (12)$
停止条件：一般为一阶导数小于某个阈值或者迭代次数达到一定代数
正定：如果初始矩阵 $G_0$ 是正定的，则迭代过程中的每个 $G_k$ 都是正定的

2. BFGS（Broyden-Fletcher-Goldfarb-Shanno）算法

定义：与DFP算法不同，BFGS直接用 $B_k$ 逼近hessian矩阵 $H$ （DFP用 $G_k$ 来逼近 $H_k^{-1}$ ）。BDGS对应的牛顿条件为
$B_{k+1}\delta_k = y_k$
拟合方法：与DFP类似，使用 $B_{k+1} = B_k + P_k +Q_k$ ，应满足 $P_k\delta_k=y_k,Q_k\delta_k=-B_k\delta_k$ 。 $P_k, Q_k$ 可以这样得出
$P_{k}=\frac{y_{k} y_{k}^{\mathrm{T}}}{y_{k}^{\mathrm{T}} \delta_{k}}， Q_{k}=-\frac{B_{k} \delta_{k} \delta_{k}^{\mathrm{T}} B_{k}}{\delta_{k}^{\mathrm{T}} B_{k} \delta_{k}} \ \ \ (12)$
正定：如果初始矩阵 $B_0$ 是正定的，则迭代过程中的每个 $B_k$ 都是正定的

Nick-Hwong

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
牛顿法与拟牛顿法总结

1) 牛顿法假设目标函数为f(x)f(x)f(x)将f(x)f(x)f(x)在xkx^kxk用泰勒公式二阶展开，得f(x)=f(x(k))+gkT(x−x(k))+12(x−x(k))TH(x(k))(x−x(k))        (1)f(x)=f\left(x^{(k)}\right)+g_{k}^{\ma...
复制链接

扫一扫

专栏目录