Newton's Method

最新推荐文章于 2022-04-05 13:14:11 发布

BogeyDa

最新推荐文章于 2022-04-05 13:14:11 发布

阅读量795

点赞数

分类专栏： Algorithm 文章标签：牛顿法优化算法拟牛顿法

本文链接：https://blog.csdn.net/lrglgy/article/details/90082067

版权

Algorithm 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

第5章初学牛顿法

本文是对牛顿法和拟牛顿法的公式进行简单的推导以及介绍，主要解决如何使用牛顿法（即不管怎么来，为什么，只管怎么用），我会在后续博文中继续学习总结它是怎么来的。
本文将分为两个部分，第一部分是牛顿法介绍；第二部分为拟牛顿法的简单介绍。

5.1 牛顿法

本文是对牛顿法的公式进行简单的推导以及介绍，主要解决如何使用牛顿法（即不管怎么来，为什么，只管怎么用），我会在后续博文中继续学习总结它是怎么来的。
牛顿法是在梯度下降算法的基础上引入二阶导数，从而加快优化算法的收敛速度。具体算法思路如下：

有无约束最优化问题：
$min_{x\in R^n}f(x)\tag{4.1}$
假设 $f (x)$ 有二阶连续偏导数， $x_k$ 是第k次迭代值，可得 $f (x)$ 的二阶泰勒展开式如下：
$f(x)=f(x_k)+g_k(x-x_k)+\frac{1}{2}(x-x_k)^T H_k(x-x_k)\tag{4.2}$
其中 $g_k=g(x_k)=f'(x_k)$ ， $H_k$ 是 $f (x)$ 的海森矩阵（Hesse matrix）。
令上式对 $x$ 求导得：
$\nabla f(x)=g_k+H_k(x-x_k)\tag{4.3}$
假设在 $x_{k+1}$ 点满足：
$\nabla f(x_{k+1})=0\tag{4.4}$
将式子(3)中的 $x$ 替换为 $x_{k+1}$ 得：
$g_k+H_k(x_{k+1}-x_k)=0\tag{4.5}$
求解式子(4.5)得：
$x_{k+1}=x_k-\frac{g_k}{H_k}\tag{4.6}$
令 $H_kp_k=-g_k$ ，可得：
$x_{k+1}=x_k+p_k\tag{4.7}$

用式子(4.6)作为迭代公式的算法就是牛顿算法。

牛顿算法
输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，海森矩阵 $H (x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 的极小值点 $x^*$ .
(1) 取初始点 $x_k$ ，置 $k = 0$ ；
(2) 计算 $g_k=g(x_k)$ ；
(3) 若 $||g_k||<\epsilon$ ，停止计算，返回近似解 $x^*=x_k$ ；
(4) 计算 $H_k=H(x_k)$ ，并求 $p_k$ ：
$H_k p_k=-g_k$
(5) 置 $X_{k+1}=x_k+p_k$ ；
(6) 置 $k = k + 1$ ，返回(2).
在步骤(4)中，要求 $H_k^{-1}$ ，计算比较复杂，所以有其它改进的方法。

       优点： 1. 牛顿法为二阶收敛，收敛速度快；
       缺点： 1.牛顿法每一步都要求目标函数海森矩阵的逆矩阵，计算复杂度较大；
                   2. 可能发生被零除错误，因为在零点附近，导数非常小，运算易出现被零除错误；

我跳过的坑
1. 为什么求导后的式子（4.3）没有 $f(x_k)$ ？
这个问题很简单，我们是对 $x$ 进行求导，而 $f(x_k)$ 中并没有 $x_k$ ，因此求导后 $f(x_k)$ 为零。

2. 我一直陷入一个误区，认为优化就是沿着梯度的反方向移动，以凸函数为例：

当初始点为 $A$ 时，沿梯度反方向（即梯度下降的方向）移动，可以到达最优解，但初始点为 $B$ 时，沿梯度下降方向移动岂不是越移越远了吗？
其实我理解是错误的，更加规范的说法是沿负梯度方向移动，当位于 $A$ 点时，梯度为正，负梯度即向梯度减小的方向移动，而 $B$ 点梯度为负，负梯度是向梯度增大的方向移动。所以不管梯度正还是负，沿梯度负方向移动都是向极小值点移动。

5.2 拟牛顿法

由于牛顿法中求海森矩阵及其逆矩阵较为复杂，所以考虑用一个n阶矩阵 $G$ 来代替海森矩阵 $H$ 或其逆矩阵 $H^{-1}$ ，如下所示：
$\begin{aligned} x_{k+1}&=x_k-G_{k+1}g_k \\ &或 \\ -g_k&=G_{k+1}(x_{k+1}-x_k) \\ &替代\\ x_{k+1}&=x_k-H_k^{-1}g_k \end{aligned}$

为什么矩阵G是n阶矩阵？
我的个人理解是，矩阵可视为一种映射，而这里是将n维向量 $x_{k+1}-x_k)$ 映射到n维向量 $g_{k+1}-g_k)$ ,所以矩阵G必须为n阶矩阵，否则等式无法成立。

为了实现替代，矩阵G要满足 $H^{-1}$ 所满足的条件：

满足公式 $x_{k+1}=x_k-G_{k+1}g_k$ ；
G必须为正定矩阵；

       要满足条件一可以使用假设法，假设 $G_{k+1}$ 满足等式，并设计 $G_{k+1}$ 的迭代表达方式，然后进行逆推，求出 $G_{k+1}$ 的真正表达式。而不同的假设方式对应于拟牛顿法的两种不同算法DFP和BFGS，详情见博客第7章拟牛顿法详解
       要满足条件二，可设置G的初始值为正定矩阵并在迭代过程中保证其正定性不变。
       优点： 1. 拟牛顿法为二阶收敛，收敛速度快；
                   2. 拟牛顿法利用迭代方式求 $G_{k+1}$ ，计算复杂度比牛顿法小；
       缺点： 暂时还没学习了解到。

5.3 残留问题

$G_{k+1}$ 是如何假设的？
我的解答：第6章拟牛顿法详解
为什么要那样假设？
我的解答：第6章拟牛顿法详解
为什么牛顿法收敛速度更快？
我的解答：第7章牛顿法收敛性
拟牛顿法如何保证 $G_{k+1}$ 的正定性？
我的解答：第8章拟牛顿法中的正定性

5.4 参考

[1] 维基百科.黑塞矩阵
[2] (Youtube)CCU MOOCs.3.4 Newton Method 牛頓法
[3] zhiyong_will.优化算法——牛顿法(Newton Method)
[4] (Youtube)有道學堂公開課.Taylor展式與擬牛頓

牛顿法优缺点:
[5] -柚子皮-.最优化方法：牛顿迭代法和拟牛顿迭代法

DFP算法中如何求出 $P_k$ 和 $Q_k$ :
[6] 皮果提.牛顿法与拟牛顿法学习笔记（三）DFP 算法
[7] ihoujie.拟牛顿法/Quasi-Newton，DFP算法/Davidon-Fletcher-Powell，及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

BogeyDa

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Newton's Method

文章目录初学牛顿法1.1 牛顿法1.2 拟牛顿法1.3 残留问题1.4 参考初学牛顿法       本文是对牛顿法和拟牛顿法的公式进行简单的推导以及介绍，主要解决如何使用牛顿法（即不管怎么来，为什么，只管怎么用），我会在后续博文中继续学习总结它是怎么来的。     &nbs...
复制链接

扫一扫