牛顿法和拟牛顿法

最新推荐文章于 2024-01-04 15:03:54 发布

Rauchy

最新推荐文章于 2024-01-04 15:03:54 发布

阅读量493

点赞数

分类专栏：数值优化与数学分析数学概率统计与线代文章标签：数值优化

本文链接：https://blog.csdn.net/wc13197389627/article/details/103321750

版权

概率统计与线代同时被 3 个专栏收录

7 篇文章 2 订阅

订阅专栏

数学

4 篇文章 0 订阅

订阅专栏

数值优化与数学分析

2 篇文章 2 订阅

订阅专栏

前言

牛顿法和拟牛顿法是两种常用的优化方法，可以用来求解函数的根以及最优化。

牛顿法

考虑无约束优化问题
$\min_{x\in R^n} f(x)$
$x^*$ 为目标函数的极小点。
假设f(x)具有二阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ，则可将f(x)在 $x^{(k)}$ 附近进行二阶泰勒展开：
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
其中， $g_k=g(x^{(x)})=\nabla f(x^{(k)})$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的黑塞矩阵
$H(x)=[\frac{\partial^2f}{\partial x_i\partial x_j}]_{n\times n}$
在点 $x^{(k)}$ 的值。函数 $f (x)$ 有极值的必要条件是在极值处一阶导数为0，即梯度向量为0，当 $H(x^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。

牛顿法利用极小点的必要条件
$\nabla f(x)=0$
每次迭代中从点 $x^{k}$ 开始，求目标函数的极小点，作为第k+1次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$\nabla f(x^{(k+1)})=0$
由之前的泰勒展开式可以得到：
$\nabla f(x)=g_k+H_k(x-x^{(k)})$
(这就是数值对向量求导的应用，我之前在矩阵求导里头总结过)。
其中， $H_k=H({x^{(k)}})$ .
于是，
$g_k+H_k(x^{(k+1)}-x^{(k)})=0$
因此，
$x^{(k+1)}=x^{(k)}-H^{-1}_k g_k$
或者
$x^{(k+1)}=x^{(k)}+p_k$
其中，
$H_kp_k=-g_k$
用上式做迭代公式的算法就是牛顿法。

算法的流程如下：

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，黑塞矩阵 $H (x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 的极小点

取初始值 $x^{(0)}$ ，置k=0
计算 $g_k=g(x^{(k)})$
若 $||g_k||\lt \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$
计算 $H_k=H(x^{(k)})$ ，并求 $p_k$
$H_kp_k=-g_k$
置 $x^{{k+1}}=x^{(k)}+p_k$
置 $k = k + 1$ ，转 2 。

优缺点

牛顿法的优点是收敛速度快，因为求解过程考虑了二阶导数，而传统的梯度下降法只考虑了一阶导数。
缺点是计算复杂度高，因为要求解黑塞矩阵的逆，所以复杂度较高。机器学习中的有关矩阵的操作一般复杂度都会比较高，所以一般都会采用迭代的方法来求解近似解。
其次，牛顿法要求函数必须是凸的，否则上述求解过程不会收敛。

拟牛顿法

针对黑塞矩阵的逆的求解复杂问题，人们又提出了拟牛顿法，思路就是利用一个n阶矩阵 $G_k=G(x^{(k)})$ 来近似替代 $H^{-1}_k=H^{-1}(x^{(k)})$
考虑下式：
$\nabla f(x)=g_k+H_k(x-x^{(x)})$
其中， $g_k=\nabla f(x^{(x)})$ ，将上式中的 $x$ 替换为 $x^{(k)}$ ，可得
$g_{k+1}-g_k=H_k(x^{(k+1)}-x^{(k)})$
记 $y_k=g_{k+1}-g_k$ ， $\delta_k=x^{(k+1)}-x^{(k)}$ ，则
$y_k=H_k\delta_k$
或
$H_k^{-1}y_k=\delta_k$
上式被称为拟牛顿条件

为了减少计算，我们不直接计算 $H_k^{-1}$ ，选取 $H_k^{-1}$ 的近似有两种选择，于是就有了两种不同的算法。

DFP算法
在DFP算法中，我们用 $G_k$ 作为 $H_k^{-1}$ 的近似， $G_k$ 的迭代式如下：
$G_{k+1}=G_k+P_k+Q_k$
于是有
$G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k$
其中， $P_k$ 和 $Q_k$ 的满足以下条件：
$P_ky_k=\delta_k$
$Q_ky_k=-G_ky_k$
为了满足以上条件，取
$P_k=\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}$
$Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$
于是， $G_k$ 的迭代式如下：
$G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$
(这种思想的确很厉害，一般人难以想到)
BFGS算法
BFGS的思想与DFP相似，都是采用近似的方法减少计算复杂度，不过近似的思路不太一样。
BFGS采用 $B_k$ 近似 $H$ ，拟牛顿条件如下：
$B_{k+1}\delta_k=y_k$
迭代式如下：
$B_{k+1}=B_k+P_k+Q_k$
$B_{k+1}\delta_k=B_k\delta_k+P_k\delta_k+Q_k\delta_k$
$P_k$ 和 $Q_k$ 满足如下条件：
$P_k\delta_k=y_k$
$Q_k\delta_k=-B_k\delta_k$
于是，最终的迭代式如下：
$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$

总结

其实牛顿法和拟牛顿法的核心思想还是近似，尤其是对于导数和矩阵的近似，这在其他的机器学习问题里多有体现，以后遇到相关的问题再讨论。关于相关的代码等以后有时间了再写，对于牛顿法和拟牛顿法我目前也没有完全弄懂，等以后理解更深刻了再重写这篇博文。

参考资料

统计机器学习
牛顿法知乎

Rauchy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
牛顿法和拟牛顿法

前言牛顿法和拟牛顿法是两种常用的优化方法，可以用来求解函数的根以及最优化。牛顿法考虑无约束优化问题min⁡x∈Rnf(x)\min_{x\in R^n} f(x)x∈Rnminf(x)x∗x^*x∗为目标函数的极小点。假设f(x)具有二阶连续偏导数，若第k次迭代值为x(k)x^{(k)}x(k)，则可将f(x)在x(k)x^{(k)}x(k)附近进行二阶泰勒展开：f(x...
复制链接

扫一扫