牛顿法及其几何意义理解

最新推荐文章于 2022-10-24 22:29:10 发布

HongDouZhou233

最新推荐文章于 2022-10-24 22:29:10 发布

阅读量8.1k

点赞数 10

本文链接：https://blog.csdn.net/houdouzhou/article/details/85988847

版权

牛顿法

牛顿法是一种用来求解可微函数的近似解的方法。

首先从几何意义上直观的理解一下牛顿法。在这里插入图片描述
图中 $y = f (x)$ 是一个可微函数。在点 $x_n, f(x_n))$ 作切线，和 $y$ 轴的交点记为 $x_{n+1}$ 。 $\Delta x = x_{n+1}-x_n$ 。要求方程 $f (x) = 0$ 的一个解 $x^*$ 。

根据几何性质， $x_n$ 处的切线斜率 $^\prime(x_n) = \frac{f(x_n)}{x_n-x_{n+1}}$ ，即 $x_{n+1} = x_n - \frac{f(x_n)}{f ^\prime(x_n) }$ 。
$x_{n+1}$ 比 $x_n$ 更接近 $x^*$ ，可以想象不断重复这个过程，对这个过程进行多次的迭代后，最终将会得到方程 $f (x) = 0$ 的解 $x^*$ 。这就是牛顿法的几何解释。

牛顿法的代数原理是利用泰勒展开求近似解。
对于函数 $f (x)$ ，在 $x_n$ 处进行泰勒展开到一阶
$f(x)=f(x_n+\Delta x) \approx f(x_n)+f^\prime(x_n)\Delta x$

令 $\approx f(x_n)+f^\prime(x_n)\Delta x$ ,得到近似的 $\Delta x = -\frac{f(x_n)}{f ^\prime(x_n) }$ ，即得到了比 $x_n$ 更接近 $x^*$ 的一个近似解
$x_{n+1} = x_n - \frac{f(x_n)}{f ^\prime(x_n) }$
不断进行迭代，最终结果将收敛到问题 $f (x) = 0$ 的解 $x^*$ 。

牛顿法求最优化问题

最优化问题即找到一个 $x^*$ 使 $f(x_n)$ 具有最大/最小值。根据最优化问题的必要条件， $f(x_n)$ 为有极大值/极小值时， $f^\prime(x_n)=0$ 。根据这一性质，可以令 $f^\prime(x)$ ，带入之前的牛顿法公式，可迭代的计算 $x_{n+1} = x_n - \frac{l(x_n)}{l ^\prime(x_n) }$ 。可以得到牛顿法解优化问题的迭代公式：
$x_{n+1} = x_n - \frac{f^\prime(x_n)}{f ^{\prime\prime}(x_n) }$

现在，我们同样用泰勒展开的方法来推导这个公式。
对于函数 $f (x)$ ，在 $x_n$ 处进行二阶泰勒展开
$f(x)=f(x_n+\Delta x) \approx f(x_n)+f^\prime(x_n)\Delta x+\frac{f^{\prime\prime}(x_n)}{2}\Delta x^2$

根据极值的必要条件，对 $\Delta x$ 求导，令 $f^\prime(x_n) = 0$ ，
$0=f^\prime(x)\approx \frac {d}{d\Delta x} (f(x_n)+f^\prime(x_n)\Delta x+\frac{f^{\prime\prime}(x_n)}{2}\Delta x^2)=f^\prime(x_n)+f^{\prime\prime}(x_n)\Delta x$
得到
$\Delta x = -\frac{f^\prime(x_n)}{f ^{\prime\prime}(x_n) }$
即得到了迭代式
$x_{n+1} = x_n - \frac{f^\prime(x_n)}{f ^{\prime\prime}(x_n) }$
在高维情况下，即当 $f(\vec{x})$ 为 $R^n\to R$ 的函数时，记其在 $x=x_n$ 处一阶梯度 $\nabla f(\vec{x_n}) = g_n$ ，二阶梯度 $\nabla^2f(x_n)=H_n$ ， $g_n$ 为梯度向量， $H_n$ 为黑塞矩阵（之后我将介绍黑塞矩阵）。则此时取得最值得条件变为 $\nabla f(x_n)+\nabla^2 f(x_n)\Delta x$ =0，即 $g_n+H_n\Delta x=0$ 。当黑塞矩阵 $H_n$ 非奇异时，可以得到
$\Delta x = -H_n^{-1} \cdot g_n$
即递推式为
$x_{n+1} = x_n- H_n^{-1} \cdot g_n$