优化方法之牛顿法和拟牛顿法

最新推荐文章于 2021-06-10 11:51:32 发布

鼹鼠的胡须

最新推荐文章于 2021-06-10 11:51:32 发布

阅读量1.3k

点赞数

分类专栏：数学机器学习文章标签：优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23968185/article/details/52290571

版权

机器学习同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

与梯度下降法一样，牛顿法和拟牛顿法也是求解无约束优化问题的常用的迭代方法。

1、牛顿法

考虑无约束最优化问题：

min x \in R n f (x)

$\min_{x\in \mathbb R^n} f(x)$
其中

x∗ $x^*$ 为目标函数的极小点。

牛顿法的一个直观解释：每一次迭代过程中，目标函数在局部可以近似表示成二次函数，然后以该二次函数的极值点来代替目标函数的极值点，不断重复直到收敛。

既然要将目标函数局部近似为二次函数，自然地我们就要引入泰勒公式了。假设 $f(x)$ 具有二阶连续偏导，若第 $k$ 次迭代值为 $x^{(x)}$ ，则可将 $f(x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开：

f (x) = f (x (k)) + \nabla f (x (k)) T (x - x (k)) + 1 2 (x - x (k)) T H (x (k)) (x - x (k))

$f(x)=f(x^{(k)})+\nabla f(x^{(k)})^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x{(k)})$
其中，

H(x(k)) $H(x^{(k)})$ 是

f(x) $f(x)$ 在

x(k) $x^{(k)}$ 处的Hesse阵：

H (x) = [\partial 2 f \partial x i \partial x j] n \times n

$H(x)= \begin{bmatrix} \frac{\partial^2f}{\partial x_i\partial x_j} \end{bmatrix}_{n\times n}$

$f(x)$ 有极值的必要条件是它的一阶导在极值点处取值为0，特别地，若是极小值点则Hesse还是正定矩阵。 $f(x)$ 的一阶导为：

\nabla f (x) = \nabla f (x (k)) + H (x (k)) (x - x (k))

$\nabla f(x) = \nabla f(x^{(k)})+H(x^{(k)})(x-x^{(k)})$

因此，若从 $x^{(k)}$ 开始迭代，求 $f(x)$ 的极小点 $x^{(k+1)}$ ，作为第 $k+1$ 次的迭代值。即：

\nabla f (x (k + 1)) = \nabla f (x (k)) + H (x (k)) (x (k + 1) - x (k)) = 0

$\nabla f(x^{(k+1)}) = \nabla f(x^{(k)})+H(x^{(k)})(x^{(k+1)}-x^{(k)})=0$
则有：

x (k + 1) = x (k) - H (x (k)) - 1 \nabla f (x (k))

$x^{(k+1)}=x^{(k)}-H(x^{(k)})^{-1}\nabla f(x^{(k)})$
上式即为牛顿法的迭代公式。

算法(牛顿法)
输入：目标函数 $f(x)$ ，梯度 $g(x)=\nabla f(x)$ ，hesse阵 $H(x)$ ，精度 $\epsilon$ .
输出： $f(x)$ 的极小点。
(1)初始点 $x^{(0)}$ ，迭代次数 $k=0$
(2)计算 $g_k=g(x^{(k)})$ ，若 $||g_k<\epsilon||$ ，停止， $x^*=x^(k)$
(3)计算 $H_k=H(x^{(k)})$ ，并求 $p_k$

$H k p k = - g k$ $H_kp_k=-g_k$
(4)置 $x^{(k+1)}=x^{(k)}+p_k$
(5)置 $k=k+1$ ，转步骤(2).

总结：牛顿法与梯度下降法相比，其收敛速度快（二次收敛），但由于每一次迭代都要求解hesse阵的逆，因此计算复杂。

2、拟牛顿法

拟牛顿法的原理本质上是与牛顿法一样的，只不过是在牛顿法的迭代过程中将hesse阵的逆的计算用一个 $n$ 阶矩阵 $G_k$ 来代替了。

那么满足什么条件的 $G_k$ 可以代替Hesse阵的逆呢？先看 $H_k$ 满足的条件，由于

\nabla f (x) = \nabla f (x (k)) + H (x (k)) (x - x (k))

$\nabla f(x) = \nabla f(x^{(k)})+H(x^{(k)})(x-x^{(k)})$
令

x=x(k+1) $x=x^{(k+1)}$ ，则有

\nabla f (x (k + 1)) - \nabla f (x (k)) = H (x (k)) (x (k + 1) - x (k))

$\nabla f(x^{(k+1)}) -\nabla f(x^{(k)})=H(x^{(k)})(x^{(k+1)}-x^{(k)})$
记

yk=∇f(x(k+1))−∇f(x(k)),δk=x(k+1)−x(k) $y_k=\nabla f(x^{(k+1)}) -\nabla f(x^{(k)}),\delta_k=x^{(k+1)}-x^{(k)}$ ，则

y k = H k δ k

$y_k=H_k\delta_k$
或

H - 1 k y k = δ k

$H_k^{-1}y_k=\delta_k$
上面两式称为 拟牛顿条件。
此外，如果

Hk $H_k$ 是正定的，那么可以保证牛顿法搜索方向

pk $p_k$ 是下降方向。所以，

Gk $G_k$ 要扮演

H−1k $H_k^{-1}$ 在牛顿法的角色，应当满足同样条件，即：(1)迭代矩阵

Gk $G_k$ 正定；(2)

Gk $G_k$ 满足拟牛顿条件：

Gk+1yk=δk $G_{k+1}y_k=\delta_k$ .

按照拟牛顿条件，每次迭代中可以选择更新矩阵 $G_{k+1}$ ：

G k + 1 = G k + Δ G k

$G_{k+1}=G_k+\Delta G_k$
显然，

Gk $G_k$ 的选择不是唯一的。常用的拟牛顿法有DFP算法、BFGS算法、Broyden类算法。

3、DFP、BFGS算法

DFP中，记 $G_{k}$ 满足拟牛顿条件： $G_{k+1}y_k=\delta_k$ ，则迭代公式：

G k + 1 = G k + δ k δ T k δ T k y k - G k y k y T k G k y T k G k y k

$G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$
BFGS中，记

Bk $B_{k}$ 满足拟牛顿条件：

Bk+1δk=yk $B_{k+1}\delta_k=y_k$ ，则迭代公式：

B k + 1 = B k + y k y T k y T k δ k - B k δ k δ T k B k δ T k B k δ k

$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$

鼹鼠的胡须

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。