海森矩阵及其应用

最新推荐文章于 2024-08-15 17:21:12 发布

yuukilp

最新推荐文章于 2024-08-15 17:21:12 发布

阅读量1.4w

点赞数 2

分类专栏：经典算法文章标签：梯度下降算法微积分牛顿迭代法

经典算法专栏收录该内容

13 篇文章 0 订阅

订阅专栏

原文参考链接：here，原文讲得到很详细。

海森矩阵

在数学中, 海森矩阵(Hessian matrix或Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵, 此函数如下：

$f (x 1, x 2 \dots, x n)$ $f({x_1},{x_2} \ldots ,{x_n})$
如果 $f$ 的所有二阶导数都存在, 那么 $f$ 的海森矩阵即：
$H (f) i j (x) = D i D j f (x)$ $H{(f)_{ij}}(x) = {D_i}{D_j}f(x)$
其中 $x = ({x_1},{x_2} \ldots ,{x_n})$ , 即 $H(f)$ 为:
$⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}$

海森矩阵在牛顿法中的应用

一般来说, 牛顿法主要应用在两个方面, 1, 求方程的根; 2, 最优化.

1), 求解方程

并不是所有的方程都有求根公式, 或者求根公式很复杂, 导致求解困难. 利用牛顿法, 可以迭代求解.

原理是利用泰勒公式, 在 $x_0$ 处展开, 且展开到一阶, 即 $f(x)=f(x_0)+(x–x_0)f′(x_0)$ ，求解方程 $f(x)=0$ , 即 $f(x_0)+(x–x_0)f′(x_0)=0$ , 求解 $x=x_1=x_0–f(x_0)/f′(x_0)$ , 因为这是利用泰勒公式的一阶展开, $f(x)=f(x_0)+(x–x_0)f′(x_0)$ 处并不是完全相等, 而是近似相等, 这里求得的 $x_1$ 并不能让 $f(x)=0$ , 只能说 $f(x_1)$ 的值比 $f(x_0)$ 更接近 $f(x)=0$ , 于是乎, 迭代求解的想法就很自然了, 可以进而推出 $x_{n+1}=x_n–f(x_n)/f′(x_n)$ , 通过迭代, 这个式子必然在 $f(x^∗)=0$ 的时候收敛. 整个过程如下图：

2), 最优化

在最优化的问题中, 线性最优化至少可以使用单纯形法(或称不动点算法)求解, 但对于非线性优化问题, 牛顿法提供了一种求解的办法. 假设任务是优化一个目标函数 $f$ , 求函数 $f$ 的极大极小问题, 可以转化为求解函数 $f$ 的导数 $f′=0$ 的问题, 这样求可以把优化问题看成方程求解问题( $f′=0$ ). 剩下的问题就和第一部分提到的牛顿法求解很相似了.

这次为了求解 $f′=0$ 的根, 把 $f(x)$ 的泰勒展开, 展开到 $2$ 阶形式：

$f (x + Δ x) = f (x) + f' (x) Δ x + 1 2 f'' (x) Δ x 2$ $f(x + \Delta x) = f\left( x \right) + f'(x)\Delta x + \frac{1}{2}f''(x)\Delta {x^2}$
这个式子是成立的, 当且仅当 $\Delta x$ 无限趋近于0时, $f(x+Δx)=f(x)$ , 约去这两项, 并对余项式 $f’(x)\Delta x + \frac{1}{2}f”(x)\Delta {x^2}{\rm{ = }}0$ 对 $Δx$ 求导(注: $f′(x)$ , $f”(x)$ 均为常数项. 此时上式等价与：

$f' (x) + f'' (x) Δ x = 0$ $f'(x) + f''(x)\Delta x{\rm{ = }}0$
求解：
$Δ x = - f ' ( x n ) f '' ( x n )$ $\Delta x{\rm{ = - }}\frac{{f'({x_n})}}{{f''({x_n})}}$
得出迭代公式：
$x n + 1 = x n - f ' ( x n ) f '' ( x n ), n = 0, 1, . . .$ ${x_{n + 1}} = {x_n}{\rm{ - }}\frac{{f'({x_n})}}{{f''({x_n})}},n = 0,1,...$
一般认为牛顿法可以利用到曲线本身的信息, 比梯度下降法更容易收敛（迭代更少次数）, 如下图是一个最小化一个目标方程的例子, 红色曲线是利用牛顿法迭代求解, 绿色曲线是利用梯度下降法求解.

在上面讨论的是 $2$ 维（ $x$ 坐标维度 + $y$ 坐标维度）情况, 高维情况的牛顿迭代公式是：

$x n + 1 = x n - [H f (x n)] - 1 \nabla f (x n), n \geq 0$ ${x_{n + 1}} = {x_n} - {[Hf({x_n})]^{ – 1}}\nabla f({x_n}),n \ge 0$