SUMMARIZE：Newton's method

最新推荐文章于 2024-08-19 13:32:52 发布

長華

最新推荐文章于 2024-08-19 13:32:52 发布

阅读量523

点赞数

分类专栏： Optimization 文章标签：约束方法优化算法

本文链接：https://blog.csdn.net/u011250470/article/details/44428001

版权

Optimization 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Newton’s method

牛顿法是求解无约束优化问题最古老的方法之一，到目前为止，它衍生出了不少其他的优化算法。那么在了解那些在牛顿法之上改进而得的算法之前，我们首先要了解一下基本牛顿法的思想。首先，牛顿法有两个应用，一个是求方程的根，一个是最优化。求方程的根是基于 $f(x)=0$ ，而最优化这是基于 $f'(0)=0$ .

牛顿法的基本思想

牛顿法的基本思想是利用目标函数的二次Taylor展开，并将其极小化。设 $f(x)$ 是二次可微实函数， $x_k\in R^n$ ,Hessen矩阵 $\nabla ^2f(x_k)$ 正定，我们在 $x_k$ 附近用二次Taylor展开近似 $f$ 。
$f(x_k+\varepsilon)\approx q^{(k)}(\varepsilon)=f(x_k)+\nabla f(x_k)^T\varepsilon +\frac{1}{2}\varepsilon ^T\nabla ^2f(x_k)\varepsilon$
其中， $\varepsilon=x-x_k$ ， $q^{(k)}$ 为 $f(x)$ 的二次近似。当 $\varepsilon \rightarrow 0$ (对上式左右两边关于 $\varepsilon$ 求导)，上式等价于:
$\nabla f(x_k)^T +\nabla ^2f(x_k)\varepsilon=0$
求解得到:
$x_{k+1}=x_k-[\nabla^2f(x_k)]^{-1}\nabla f(x_k)$
这就是牛顿迭代公式。
在这个公式中，步长因子 $\alpha _k=1$ ，令 $G_k=\nabla ^2f(x_k)$ ， $g_k=\nabla f(x_k)$ ，上式可以写为：
$x_{k+1}=x_k-G_k^{-1}g_k$

牛顿法的另一种视角

一个很有意思的观点是认为牛顿法可以看成在椭圆范数 $\Arrowvert . \Arrowvert _{G_k}$ 下的最速下降法。
$f(x_k+\varepsilon )\approx f(x_k)+g_k^T\varepsilon$
设 $\varepsilon_k$ 是极小化问题 $\min_{\varepsilon \in R^n} \frac{g_k^T \varepsilon}{\Arrowvert \varepsilon \Arrowvert}$ 的解，它的值依赖于所取的范数。当采用 $l_2$ 范数时， $\varepsilon_k=-g_k$ ，即最速下降法；当采用椭圆范数 $\Arrowvert . \Arrowvert _{G_k}$ 时， $\varepsilon_k=-G_k^{-1}g_k$ ，即牛顿法。

牛顿法的收敛性

牛顿收敛定理：
设 $f \in C^{(2)}$ ， $x_k$ 充分靠近 $x^*$ ， $\nabla f(x^*)=0$ ，如果 $\nabla ^2f(x^*)$ 正定，且Hesse矩阵 $G(x)$ 满足Lipschitz条件，即存在 $\beta>0$ ，使对于所有 $i,j$ ，有
$\vert G_{ij}(x)-G_{ij}(y)\vert \leq \beta \Arrowvert x-y \Arrowvert$
其中 $G_{ij}(x)$ 是Hesse矩阵G(x)的（i，j）元素。对于一切k，牛顿迭代法有定义，且所得序列 ${x_k}$ 收敛到 $x^*$ 。
证明：
设 $\epsilon_k=x_k-x^*$ ，由Taylor公式
$g(x^*)=g(x_k+\epsilon)=g_k+G_k\epsilon+O(\Arrowvert \epsilon \Arrowvert^2)$
令 $\epsilon=-\epsilon_k$
$0=g(x^*)=g_k-G_k\epsilon_k+O(\Arrowvert \epsilon_k \Arrowvert^2)$
由于上面的假设条件，故可以设 $x_k$ 在 $x^*$ 的领域中，且第k次牛顿迭代存在，用 $G_k^{-1}$ 乘上等式两边得：
$0=G_k^{-1}g_k-\epsilon_k+O(\Arrowvert \epsilon_k \Arrowvert^2)=-\varepsilon_k-\epsilon_k+O(\Arrowvert \varepsilon_k \Arrowvert^2)=-\epsilon_{k+1}+O(\Arrowvert \varepsilon_k \Arrowvert^2)$
由O(.)的定义知，存在常数C使得：
$\Arrowvert \epsilon_{k+1}\Arrowvert \leq C\Arrowvert \epsilon_{k}\Arrowvert^2$
若 $x_k \in \{ x \vert \Arrowvert \epsilon \Arrowvert \leq \lambda/C,\lambda \in (0,1)\}$ ，则有
$\Arrowvert \epsilon_{k+1}\Arrowvert \leq \lambda\Arrowvert \epsilon_{k}\Arrowvert$
由归纳法，迭代对所有k有定义，且 $\Arrowvert \epsilon \Arrowvert \rightarrow 0$ 。因此迭代收敛，并且收敛速度是二阶的。

带步长因子的牛顿法

当初始解远离最优解时， $G_k$ 不一定正定，牛顿方向不一定是下降方向，其收敛性不能保证。说明恒取步长因子为1的牛顿法是不合适的，应该在牛顿法中采用某种一维搜索。注意，当且仅当步长因子 $\{\alpha_k \}$ 取1时，牛顿法才是二阶收敛的。
$d_k=-G_k^{-1}g_k$
$x_{k+1}=x_k+\alpha_kd_k$
step1 选取初始数据，取初始点 $x_0$ ，终止误差 $\varepsilon >0$ ，令k:=0
step2 计算 $g_k$ ，如果 $\Arrowvert g_k \Arrowvert <\varepsilon$ ，停止迭代，输出答案，否则进行step3
step3 解方程组构造牛顿方向，即解 $G_kd=-g_k$ ，求出 $d_k$
step4 进行一维搜索，求 $\alpha_k$ 使得
$f(x_k+\alpha_kd_k)=\min_{\alpha \geq0}f(x_k+\alpha d_k)$
$x_{k+1}=x_k+\alpha_kd_k,k:=k+1$ 转step2

牛顿法的主要局限在于，他是一种基于梯度的方法，并且，他假定Hesse矩阵正定。

reference：计算方法丛书，最优化理论与方法，袁亚湘，孙文瑜

長華

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
SUMMARIZE：Newton's method

Newton’s method牛顿法是求解无约束优化问题最古老的方法之一，到目前为止，它衍生出了不少其他的优化算法。那么在了解那些在牛顿法之上改进而得的算法之前，我们首先要了解一下基本牛顿法的思想。首先，牛顿法有两个应用，一个是求方程的根，一个是最优化。求方程的根是基于f(x)=0f(x)=0，而最优化这是基于f′(0)=0f'(0)=0. 牛顿法的基本思想是利用目标函数的二次Taylor展
复制链接

扫一扫