牛顿法总结

最新推荐文章于 2024-08-28 08:34:51 发布

funNLPer

最新推荐文章于 2024-08-28 08:34:51 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：算法数学建模

本文链接：https://blog.csdn.net/orangerfun/article/details/108426414

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1. 牛顿法用于求方程解

牛顿法解方程是用切线来逐渐逼近方程的解如下图所示：
在这里插入图片描述
假如随机初始化的点为A点，做A点的切线与x轴相交于A’点，在A’点做垂线于函数曲线相交于B点，然后以B点做切线，如此循环下去，可以看到切线与x轴的交点逐渐向方程的解靠拢。

设随机初始化的点为 $x_n, f(x_n))$ ，则切线方程为：

$y-f(x_n) = f^{'}(x_n)(x-x_n)$

切线与x轴的交点为（令y=0）

$x_{n+1}=x_n-\frac{f(x_n)}{f^{'}(x_n)}$

这就是迭代方程

参考：如何通俗易懂地讲解牛顿迭代法？

2. 牛顿法用于最优化

应用于最优化的牛顿法是以迭代的方式来求解一个函数的最优解, 取泰勒展开式的二次项,即用𝜙(𝑥)来代替𝑓(𝑥)

$\phi(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{1}{2} f^{\prime \prime}\left(x_{0}\right)\left(x-x_{0}\right)^{2}$

最优点的选择是𝜙′(𝑥)=0的点，对上式求导

$\phi^{\prime}(x)=f^{\prime}\left(x_{0}\right)+f^{\prime \prime}\left(x_{0}\right)\left(x-x_{0}\right)$

所以，最优化的牛顿迭代公式是:

$x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime \prime}\left(x_{n}\right)}$

参考：牛顿法和牛顿迭代法

3. 总结

牛顿法用于求方程解时迭代式为：
$x_{n+1}=x_{n}-\frac{f\left(x_{n}\right)}{f^{\prime}\left(x_{n}\right)}$

巧妙记忆方法 $\phi(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$ 令 $\phi(x)$ =0即可推导出来

牛顿法用于最优化时迭代为：
$x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime \prime}\left(x_{n}\right)}$

高维下的牛顿优化法：
$\begin{aligned} X_{n+1} &=X_{n}-\frac{f^{\prime}\left(\mathrm{X}_{n}\right)}{f^{\prime \prime}\left(\mathrm{X}_{n}\right)}=X_{n}-\frac{J_{f}\left(\mathrm{X}_{n}\right)}{H\left(\mathrm{X}_{n}\right)} =X_{n}-H^{-1}\left(\mathrm{X}_{n}\right) \cdot J_{f}\left(\mathrm{X}_{n}\right) \end{aligned}$

其中， $J$ 定义为雅可比矩阵，对应一阶偏导数
$J_{f}\left(X_{n}\right)=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right]$

$H$ 为 Hessian矩阵，对应二阶偏导数
$H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$