牛顿法与Hessian矩阵

最新推荐文章于 2025-01-23 15:41:52 发布

风吹草地现牛羊的马

最新推荐文章于 2025-01-23 15:41:52 发布

阅读量3.2k

点赞数 8

分类专栏：机器学习 NLP 优化算法

本文链接：https://blog.csdn.net/mch2869253130/article/details/108977880

版权

机器学习同时被 3 个专栏收录

97 篇文章

订阅专栏

NLP

42 篇文章

订阅专栏

优化算法

3 篇文章

订阅专栏

牛顿法可以用于求解方程的根和无约束最优化问题。其背后的数学原理分别对应的是一阶泰勒展开和二阶泰勒展开。

回顾泰勒公式展开：
$f(x_0)+f'(x_0)(x-x_0)+{1 \over 2}f''(x_0)(x-x0)^2+O((x-x_0)^3)$

牛顿法求解方程的根

假设我们要求 $f (x)$ 的实数根，也就是解方程 $f (x) = 0$ ，也就是求 $f (x)$ 与 $x$ 轴的交点。

将 $f (x)$ 在 $x_0$ 处一阶泰勒展开，并令其等于0
$\tag{1}f(x_0)+f'(x_0)(x-x_0)=0$
可以发现，（1）式其实是一条直线。也就是 $f (x)$ 在 $x=x_0$ 处的切线方程。我们求出切线方程与 $x$ 轴的交点 $x_a=x_0-{f(x_0) \over f'(x_0)}$
在这里插入图片描述

在上图中，蓝色的点为 $f (x) = 0$ 的根，黑色的点是 $x_a$ ，我们继续求出 $f (x)$ 在 $x=x_a$ 处的切线方程与 $x$ 轴的交点 $x_b=x_a-{f(x_a) \over f'(x_a)}$ 。

在这里插入图片描述

就这样依次迭代，我们发现每次求出的 $f (x)$ 的切线方程与 $x$ 轴的交点都更接近于 $f (x)$ 真实的根
在这里插入图片描述
下图第50次迭代就收敛了，就可以将 $x_{50}$ 作为方程 $f (x) = 0$ 的解。

所以在一阶牛顿法中，迭代公式是 $x_{n+1}=x_n-{f(x_n) \over f'(x_n)}$

牛顿法求解最优化问题

在机器学习中，有很多问题最后都转化为优化问题来解决，通常就是求损失函数的极值问题。在数学中，极值问题通常是令一阶导数为零，也就是求 $f (x)$ 的极值点。这种情况就是求 $f^{'} (x) = 0$ 的根。

将 $f (x)$ 在 $x=x_0$ 处二阶泰勒展开。
$\tag{2} f(x)= f(x_0)+f'(x_0)(x-x_0)+{1 \over 2}f''(x_0)(x-x0)^2+O((x-x_0)^3)$
忽略高阶项，对（2）式求导并令其为0
$f'(x)=f'(x_0)+f''(x_0)(x-x_0)=0$
求得其迭代公式为 $x_{n+1}=x_{n}-{f'(x_0) \over f''(x_0)}$

由于梯度下降法只用到了一阶导数，而牛顿法用到了二阶导数，所以牛顿法收敛更快。
在这里插入图片描述

牛顿法与Hessian矩阵

以上推导只针对了单变量的问题，对于多变量的情况，牛顿法的迭代公式变成：
在这里插入图片描述
用到了一阶偏导数和二阶偏导数，分别对应雅可比矩阵和海塞矩阵。
$J$ 表示雅克比矩阵，对应一阶偏导数：

$H$ 表示Hessian矩阵，对应二阶偏导数：

多变量的牛顿法由于引入了Hessian矩阵，增加了复杂性，特别是当