【机器学习笔记】Hessian矩阵

最新推荐文章于 2024-08-18 09:00:00 发布

Preke

最新推荐文章于 2024-08-18 09:00:00 发布

阅读量8.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u013398398/article/details/78154710

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

看牛顿法的时候，遇到的这个问题
原问题是要用牛顿法求对数似然函数 $l(\theta)$ 的最大值，也就是似然函数导数的零点，即迭代过程为：

θ : = θ - l ' ( θ ) l '' ( θ )

$\theta := \theta - \frac{l^{'}(\theta)}{l^{''}(\theta)}$

如果 $\theta$ 为向量，就会想，函数对向量求导怎么求？
所以查了一下：

1. 标量对向量求导：

结果是向量

事实上这就是所谓的Gradient，即对于一般标量函数 $f(x)$ , 其中向量为 $x=(x_1,...,x_n)$ ，导数为：

\partial f \partial x = (\partial f \partial x 1, . . . \partial f \partial x n)

$\frac{\partial f}{\partial x}=\big( \frac{\partial f}{\partial x_1},...\frac{\partial f}{\partial x_n} \big)$

也记为： $\nabla f$

2. 向量对向量求导：

结果是矩阵

一阶导

这个当然也是gradient，当然这准确的说应该叫matrix gradient. 即对于向量值函数 $f(x)$ , 其中 $x=(x_1,...,x_n)$ ， $f=(f_1,...,f_m)$ , 导数为：

\partial f \partial x = \partial f T \partial x = [\partial f 1 \partial x, . . . \partial f m \partial x] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 ⋮ \partial f 1 \partial x n \dots ⋱ \dots \partial f m \partial x 1 ⋮ \partial f m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial f}{\partial x}=\frac{\partial f^T}{\partial x} = \big[ \frac{\partial f_1}{\partial x},...\frac{\partial f_m}{\partial x} \big] = \begin{bmatrix}\frac{\partial f_1}{\partial x_1}&\cdots&\frac{\partial f_m}{\partial x_1}\\\vdots&\ddots&\vdots\\\frac{\partial f_1}{\partial x_n}&\cdots&\frac{\partial f_m}{\partial x_n}\end{bmatrix}$

这个矩阵也叫做 Jacobian 矩阵

二阶导：

二阶导数就是Hessian矩阵，形式如下：

H (f) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$H(f)=\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2}& \frac{\partial^2 f}{\partial x_1 \partial x_2}& \cdots&\frac{\partial^2 f}{\partial x_1 \partial x_n}\\\frac{\partial^2 f}{\partial x_2 \partial x_1}&\frac{\partial^2 f}{\partial x_2^2}& \cdots&\frac{\partial^2 f}{\partial x_2 \partial x_n}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial^2 f}{\partial x_n \partial x_1}&\frac{\partial^2 f}{\partial x_n \partial x_2}&\cdots&\frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}$

或者可以用更抽象的定义：