经典牛顿法

Nightmare004

已于 2022-02-17 20:15:58 修改

阅读量801

点赞数

分类专栏：数学文章标签：算法

于 2021-10-28 00:32:15 首次发布

本文链接：https://blog.csdn.net/qq_39942341/article/details/120991134

版权

数学专栏收录该内容

143 篇文章 18 订阅

订阅专栏

经典牛顿法（Pure Newton’s Method）

对于二次连续可微函数 $f$ ，求
$\min \{ f(\boldsymbol{x}):x\in \mathbb{R}^n\}$

由多元函数泰勒公式
$f(\boldsymbol{x})=f(\boldsymbol{x}_k)+\nabla f(\boldsymbol{x}_k)^T(\boldsymbol{x}-\boldsymbol{x}_k)+\frac{1}{2}(\boldsymbol{x}-\boldsymbol{x}_k)^T\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)+o(\Vert \boldsymbol{x}-\boldsymbol{x}_k\Vert)^2)$
我们忽略高阶项，然后近似 $f(\boldsymbol{x})$
$f(\boldsymbol{x})\approx f(\boldsymbol{x}_k)+\nabla f(\boldsymbol{x}_k)^T(\boldsymbol{x}-\boldsymbol{x}_k)+\frac{1}{2}(\boldsymbol{x}-\boldsymbol{x}_k)^T\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)$
接着找下降最多的地方
$\boldsymbol{x}_{k+1}=\arg \min_{\boldsymbol{x} \in \mathbb{R}^n}\{ f(\boldsymbol{x}_k)+\nabla f(\boldsymbol{x}_k)^T(\boldsymbol{x}-\boldsymbol{x}_k)+\frac{1}{2}(\boldsymbol{x}-\boldsymbol{x}_k)^T\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)\}$
这里我们假设 $\nabla^2 f(\boldsymbol{x}_k) \succ 0$
那么最小值点就是驻点
所以求个导
$\nabla f(\boldsymbol{x}_k)+\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)=0\\ \Rightarrow \boldsymbol{x}_{k+1}=\boldsymbol{x}_k-(\nabla^2f(\boldsymbol{x}_k))^{-1}\nabla f(\boldsymbol{x}_k)$
$-(\nabla^2f(\boldsymbol{x}_k))^{-1}\nabla f(\boldsymbol{x}_k)$ 称为牛顿方向
这种更新方式就叫做经典牛顿法

缺点

首先计算海森矩阵，计算量很大，更何况还要求逆
而且，尽管我们要求海森矩阵正定，但是也不能保证收敛
例如 $f(x)=\sqrt{1+x^2}$ ,用经典牛顿法
在初始点 $\left|x_0\right|<1$ 收敛， $\left| x_0\right| \ge 1$ 发散

收敛性

引理1

设 $A^T=A$ ,则 $\Vert A\Vert = \lambda_{\max}(A)$
证明：
$Ax=\lambda x$
$A^T x=\lambda x$
$A^TAx=A^T\lambda x=\lambda^2 x$
$\Vert A\Vert =\sqrt{\lambda_{\max}(A^TA)}=\lambda_{\max}(A)$

定理1

假设 $f$ 二阶连续可微，并且
1） $\exists m>0$ ,对于 $\forall x\in \mathbb{R}^n$ ,有 $\nabla^2 f(\boldsymbol{x})\succeq mI$
2） $\exists L>0$ ,对于 $\forall \boldsymbol{x},\boldsymbol{y}\in \mathbb{R}^n$ ,有 $\Vert \nabla^2 f(\boldsymbol{x}) -\nabla^2 f(\boldsymbol{y})\Vert \le L \Vert \boldsymbol{x} - \boldsymbol{y} \Vert$

设 $\{\boldsymbol{x}_k \}_{k\ge 0}$ 为经典牛顿法产生的序列，
设 $\boldsymbol{x}^{*}$ 为 $\mathbb{R}^{n}$ 上唯一的最小值点
那么
$\Vert \boldsymbol{x}_{k+1} -\boldsymbol{x}^{*}\Vert \le \frac{L}{2m}\Vert \boldsymbol{x}_k - \boldsymbol{x}^{*}\Vert^2 (k=0,1,\cdots)$
并且如果 $\Vert \boldsymbol{x}_0 - \boldsymbol{x}^{*}\Vert \le \frac{m}{L}$ ,那么
$\Vert \boldsymbol{x}_{k} - \boldsymbol{x}^{*} \Vert \le \frac{2m}{L}(\frac{1}{2})^{2^{k}}(k=0,1,\cdots)$

证明：
显然 $\nabla f(\boldsymbol{x}^{*})=0$
$\begin{aligned} \boldsymbol{x}_{k+1}- \boldsymbol{x}^{*} &= \boldsymbol{x}_k-(\nabla^2 f( \boldsymbol{x}_{k}))^{-1}\nabla f( \boldsymbol{x}_k)- \boldsymbol{x}^{*}\\ &= \boldsymbol{x}_k-\boldsymbol{x}^{*}-(\nabla^2 f( \boldsymbol{x}_{k}))^{-1}(\nabla f( \boldsymbol{x}_k)-\nabla^2 f(\boldsymbol{x}^{*}))\\ &= \boldsymbol{x}_k-\boldsymbol{x}^{*}+(\nabla^2 f( \boldsymbol{x}_{k}))^{-1}\int_{0}^{1} \nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k}))(\boldsymbol{x}^{*}-\boldsymbol{x}_{k})\mathrm{d}t\\ &=(\nabla^2 f( \boldsymbol{x}_{k}))^{-1}\int_{0}^{1} \left[\nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k}))-\nabla^2 f( \boldsymbol{x}_{k})\right](\boldsymbol{x}^{*}-\boldsymbol{x}_{k})\mathrm{d}t\\ \end{aligned}$
$\nabla^2 f(\boldsymbol{x})\succeq mI \Rightarrow \lambda\ge m \Rightarrow \frac{1}{m}\le \frac{1}{\lambda}\Rightarrow \Vert (\nabla^2 f(\boldsymbol{x}))^{-1} \Vert \le \frac{1}{m}$
$\begin{aligned} &\quad \Vert \int_{0}^{1} \left[\nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k}))-\nabla^2 f( \boldsymbol{x}_{k})\right](\boldsymbol{x}^{*}-\boldsymbol{x}_{k})\mathrm{d}t \Vert\\ &\le \int_{0}^{1} \Vert \left[\nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k}))-\nabla^2 f( \boldsymbol{x}_{k})\right](\boldsymbol{x}^{*}-\boldsymbol{x}_{k}) \Vert \mathrm{d}t \\ &\le \int_{0}^{1} \Vert \nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k}))-\nabla^2 f( \boldsymbol{x}_{k})\Vert\Vert\boldsymbol{x}^{*}-\boldsymbol{x}_{k} \Vert \mathrm{d}t \\ &\le \int_{0}^{1} L\Vert \boldsymbol{x}_{k}+t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k})-\boldsymbol{x}_{k}\Vert\Vert\boldsymbol{x}^{*}-\boldsymbol{x}_{k} \Vert \mathrm{d}t \\ &\le \int_{0}^{1} L\Vert t(\boldsymbol{x}^{*}-\boldsymbol{x}_{k})\Vert\Vert\boldsymbol{x}^{*}-\boldsymbol{x}_{k} \Vert \mathrm{d}t \\ &\le \int_{0}^{1} Lt\Vert (\boldsymbol{x}^{*}-\boldsymbol{x}_{k})\Vert\Vert\boldsymbol{x}^{*}-\boldsymbol{x}_{k} \Vert \mathrm{d}t \\ &=\frac{L}{2}\Vert\boldsymbol{x}_{k}-\boldsymbol{x}^{*} \Vert ^2 \end{aligned}$
所以
$\Vert \boldsymbol{x}_{k+1}- \boldsymbol{x}^{*} \Vert \le \frac{L}{2m}\Vert\boldsymbol{x}_{k}-\boldsymbol{x}^{*} \Vert ^2$
接着用数学归纳法证明 $\Vert \boldsymbol{x}_{k} - \boldsymbol{x}^{*} \Vert \le \frac{2m}{L}(\frac{1}{2})^{2^{k}}$
当 $k = 0$ 时，
$\Vert \boldsymbol{x}_0 - \boldsymbol{x}^{*}\Vert \le \frac{m}{L}=\frac{2m}{L}(\frac{1}{2})^{2^{0}}$
成立
假设 $k$ 时成立
当 $k + 1$ 时
$\Vert \boldsymbol{x}_{k+1}- \boldsymbol{x}^{*} \Vert \le \frac{L}{2m}\Vert\boldsymbol{x}_{k}-\boldsymbol{x}^{*} \Vert ^2\le \frac{L}{2m} (\frac{2m}{L}(\frac{1}{2})^{2^{k}})^2=\frac{2m}{L}(\frac{1}{2})^{2^{k+1}}$
成立

所以我们得出如果初始点足够近，那么经典牛顿法是二次收敛的

定理2

假设 $f$ 二阶连续可微
设最小值点为 $\boldsymbol{x}^{*}$
存在 $L > 0$ ，对于 $\forall \boldsymbol{x},\boldsymbol{y}\in N_{\delta}(\boldsymbol{x}^{*})$ ( $\boldsymbol{x}^{*}$ 的领域),有
$\Vert \nabla^2 f(\boldsymbol{x}) -\nabla^2 f(\boldsymbol{y})\Vert \le L \Vert \boldsymbol{x} - \boldsymbol{y} \Vert$
如果 $\nabla f(\boldsymbol{x}^{*})=0,\nabla^2f(\boldsymbol{x}^{*})\succ0$ ,则
1)如果初始点离 $\boldsymbol{x}^{*}$ 足够近，则 $\{\boldsymbol{x}_{k}\}$ 收敛到 $\boldsymbol{x}^{*}$
2) $\{\boldsymbol{x}_{k}\}$ 收敛到 $\boldsymbol{x}^{*}$ 的速度是Q-二次的
3) $\{\Vert \nabla f(\boldsymbol{x}_k)\Vert \}$ Q-二次收敛到0
证明：
因为 $\nabla^2f(\boldsymbol{x}^{*})$ 是非奇异的，并且 $f$ 二阶连续可微，因此
$\exists r>0$ ,对于任意满足 $\Vert \boldsymbol{x}- \boldsymbol{x}^{*}\Vert<r$ 的 $\boldsymbol{x}$ ，均有
$\Vert (\nabla^2f(\boldsymbol{x}))^{-1}\Vert \le 2\Vert (\nabla^2f(\boldsymbol{x}^{*}))^{-1}\Vert$
（~~其实我也没看懂上面这个~~ ）

然后与定理1类似，有
$\Vert \boldsymbol{x}_{k+1}- \boldsymbol{x}^{*} \Vert \le 2\Vert (\nabla^2f(\boldsymbol{x}^{*}))^{-1}\Vert\frac{L}{2}\Vert\boldsymbol{x}_{k}-\boldsymbol{x}^{*} \Vert ^2=L\Vert (\nabla^2f(\boldsymbol{x}^{*}))^{-1}\Vert \Vert\boldsymbol{x}_{k}-\boldsymbol{x}^{*} \Vert ^2$
因此，当 $\boldsymbol{x}_0$ 满足
$\Vert x^{0}-x^{*}\Vert \le \min \left\{\delta, r, \frac{1}{2 L\Vert \nabla^{2} f\left(x^{*}\right)^{-1}\Vert }\right\} \stackrel{\text { def }}{=} \hat{\delta}$
时，可保证 $\{\boldsymbol{x}_{k}\}$ 收敛到 $N_{\hat{\delta}}(\boldsymbol{x}^{*})$ 中（~~其实我也没看懂~~）
因此 $\{\boldsymbol{x}_{k}\}$ Q-二次收敛到 $\boldsymbol{x}^{*}$

根据 $\nabla f(\boldsymbol{x}_k)+\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)=0$
有
$\begin{aligned} \Vert \nabla f(\boldsymbol{x}_{k+1}) \Vert &= \Vert \nabla f(\boldsymbol{x}_{k+1}) -(\nabla f(\boldsymbol{x}_k)+\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k))\Vert\\ &=\Vert \int_{0}^{1} \nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}-\boldsymbol{x}_k))(\boldsymbol{x}-\boldsymbol{x}_k)\mathrm{d}t -\nabla^2f(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k))\Vert\\ &=\Vert \int_{0}^{1} \left[\nabla^2f(\boldsymbol{x}_{k}+t(\boldsymbol{x}-\boldsymbol{x}_k))-\nabla^2f(\boldsymbol{x}_k)\right](\boldsymbol{x}-\boldsymbol{x}_k)\mathrm{d}t \Vert\\ &\le \frac{L}{2}\Vert \boldsymbol{x}-\boldsymbol{x}_k \Vert^2\\ &=\frac{L}{2}\Vert -(\nabla^2f(\boldsymbol{x}_k))^{-1}\nabla f(\boldsymbol{x}_k)\Vert^2\\ &\le \frac{L}{2} \Vert (\nabla^2f(\boldsymbol{x}_k))^{-1}\Vert^2 \Vert \nabla f(\boldsymbol{x}_k) \Vert^2\\ &\le \frac{L}{2} 4\Vert (\nabla^2f(\boldsymbol{x}^{*}))^{-1}\Vert^2 \Vert \nabla f(\boldsymbol{x}_k) \Vert^2\\ &=2L\Vert (\nabla^2f(\boldsymbol{x}^{*}))^{-1}\Vert^2 \Vert \nabla f(\boldsymbol{x}_k) \Vert^2\\ \end{aligned}$
所以 $\{\Vert \nabla f(\boldsymbol{x}_k)\Vert \}$ Q-二次收敛到0

Nightmare004

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
1
评论
经典牛顿法

经典牛顿法（Pure Newton’s Method）对于二次连续可微函数fff，求min⁡{f(x):x∈Rn}\min \{ f(\boldsymbol{x}):x\in \mathbb{R}^n\}min{f(x):x∈Rn}由多元函数泰勒公式f(x)=f(xk)+∇f(xk)T(x−xk)+12(x−xk)T∇2f(xk)(x−xk)+o(∥x−xk∥)2)f(\boldsymbol{x})=f(\boldsymbol{x}_k)+\nabla f(\boldsymbol{x}_k)^T(\
复制链接

扫一扫