牛顿法求极值

此方家的空腹

已于 2023-09-07 13:39:56 修改

阅读量1.5k

点赞数

分类专栏：机器学习数学建模与matlab 文章标签：算法线性代数概率论

于 2021-10-05 20:47:08 首次发布

本文链接：https://blog.csdn.net/qq_42138454/article/details/120618066

版权

机器学习同时被 2 个专栏收录

16 篇文章 5 订阅

订阅专栏

数学建模与matlab

12 篇文章 15 订阅

订阅专栏

文章目录

无约束优化算法可以分为线搜索类算法与信赖域类算法两类，他们都是对 $f(\bold x)$ 在局部进行近似，前者用得更加普遍。而线搜索类算法根据搜索方向选择的不同可以分为梯度算法、牛顿算法、拟牛顿算法、拟牛顿算法等

本文目的是介绍牛顿法。平常我们说牛顿法，一般指的是用牛顿法求方程根，因而先复习牛顿法求根的原理，然后扩展到用牛顿法求极值，再进一步扩展到多元函数牛顿法求极值

1. 一元函数牛顿法求根

复杂方程的根很难直接求得，最开始用牛顿法迭代来求方程的根。方法是给一个初值 $x_{1}$ ，在 $x_{1}$ 处用一阶泰勒展式来近似表示函数 $f (x)$
$f(x)=f\left(x_{1}\right)+f^{\prime}\left(x_{1}\right)\left(x-x_{1}\right) + \mathcal{O}(x-x_1)$
将 $f (x) = 0$ 带入上式, 求得与 $x$ 轴交点横坐标 $x=x_{1}-f\left(x_{1}\right) / f^{\prime}\left(x_{1}\right)$ , 这个 $x$ 点并不是函数 $f (x)$ 的根, 但是距离真正的根更近了一点，不断迭代优化，有如下步骤

$x_{n+1}=x_{n}-f\left(x_{n}\right) / f^{\prime}\left(x_{n}\right)$
最终求得的 $x$ 值变化小于一个阈值就认为这个 $x$ 值是函数 $f (x)$ 的近似根, 这时牛顿法收敛

2. 一元函数牛顿法求极值

牛顿法用于求函数极值。对于 $f (x)$ 的极值点也就是求 $f^{\prime}(x)$ 的根, 那么也就是如上面介绍的求 $f^{\prime}(x)=0$ 的解。给定初值 $x_{1} ，$ 在 $x_{1}$ 处用二阶泰勒展式见公式 $(4)$ 。
$f(x)=f\left(x_{1}\right)+f^{\prime}\left(x_{1}\right)\left(x-x_{1}\right)+\frac{1}{2} f^{\prime \prime}\left(x_{1}\right)\left(x-x_{1}\right)^{2}$
对 $f (x)$ 求导, 令 $f^{\prime}(x)=0$ , 得 $x=x_{1}-f^{\prime}\left(x_{1}\right) / f^{\prime \prime}\left(x_{1}\right)$ , 依次迭代得到递推公式
$x_{n+1}=x_{n}-f^{\prime}\left(x_{n}\right) / f^{\prime \prime}\left(x_{n}\right)$
当xn的值变化小于阈值时认为算法收敛

3. 多元函数牛顿法求极值

对定义在 $\mathbb{R}^{n}$ 上的二次可微函数 $f(\boldsymbol x)$ ，考虑其在 $x_k$ 处二阶泰勒展开，在其定义域上取 $x_k,d_k \in \mathbb{R}^{n}$ ，其中 $d_k$ 靠近 $x_k$ ，有如下式子

$f(x_k+d_k)=f(x_k)+\nabla f(x_k)^\mathrm{T}d_k + \frac{1}{2}(d_k)^\mathrm{T}\nabla^2f(x_k)d_k+\mathcal{O}(||d_k||^2)$

忽略高阶无穷小，将上式看作 $d_k$ 的函数，对其求导(求梯度？)后令 $f'(x_k+d_k)=0$ ，化简可得牛顿方程

$\nabla^{2} f\left(x_{k}\right) d_{k}=-\nabla f\left(x_{k}\right)$

由上式，可由简单的矩阵运算规则得到优化方向 $d_k=-\nabla^{2} f\left(x_{k}\right)^{-1} \nabla f\left(x_{k}\right)$

因而可以得到迭代规则

$x_{x+1}=x_{k}-\nabla^{2} f\left(x_{k}\right)^{-1} \nabla f\left(x_{k}\right)$
当xn的值变化小于阈值时认为算法收敛

4. 对比

4.1 牛顿法对比

如果把矩阵求逆 $\nabla^{2} f\left(x_{k}\right)^{-1}$ ，在形式上写作分母。将上面三者罗列如下，可见形式完全一样(吐槽：这不废话)

$x_{n+1}=x_{n}-f\left(x_{n}\right) / f^{\prime}\left(x_{n}\right)$
$x_{n+1}=x_{n}-f^{\prime}\left(x_{n}\right) / f^{\prime \prime}\left(x_{n}\right)$
$x_{x+1}=x_{k}-\nabla f\left(x_{k}\right)/\nabla^{2} f\left(x_{k}\right)$