Hessian matrix与极值点的一点思考

satadriver

已于 2023-09-19 10:17:37 修改

阅读量850

点赞数

分类专栏：机器学习和深度学习文章标签：机器学习人工智能

于 2023-08-20 09:06:45 首次发布

本文链接：https://blog.csdn.net/m0_37567738/article/details/132388502

版权

机器学习和深度学习专栏收录该内容

24 篇文章

订阅专栏

Hessian矩阵正定和极值点的关系

同济版《高等数学》下册对二元函数极值点的判定法则：

$B^2 >0，其中A=f^{(2)}_{xx},C =f^{(2)}_{yy},B = f^{(2)}_{xy}$

此处的二元函数可以看做二维向量。

而在机器学习中，对于极值点的描述是：hessian矩阵正定（或者非负定矩阵或者半正定）。这两者有何关系？

要证明这个结论，首先要明确一点，hessian矩阵是对称矩阵，对称矩阵 $Q$ 必然可以对角化为

$P^T\Lambda P$ ，假若关于样本值的二阶导数矩阵为：

$A^TQA = A^T(P^T\Lambda P)A = (AP)^T\Lambda (PA)$ ，而对称矩阵的特征向量正交，即：
$P_{i}^{T} P_{j} = 0, i != j\\ P_{i}^{T} P_{j} = 1, i == j$
因此，若 $\Lambda$ 正定，则二次型的值必然大于0，结论得证。

通俗的理解：因为hessian矩阵的特征值可以看做梯度的反方向，若矩阵的特征值符号不同，说明元素的梯度方向不同，有些元素的导数为正，有些元素的导数为负数。此时，多元函数有可能处于鞍点，当前点肯定不是多元函数的极值点。

而《高等数学》的条件中，可以推出如下结论： $B^2 > 0, A与C同号，即2者导数方向相同$ 。若此时两个元素的导数都大于0，那么此时梯度方向为负数，当前是极大值；若两个元素的导数都小于0，此时梯度下降方向为正值，当前点为极小值。

考虑求如下hessian矩阵的特征值：

$\begin {Bmatrix} A & B \\ B&C \end {Bmatrix}x = \lambda x$
$\begin {vmatrix} A - \lambda & B \\ B&C - \lambda \end {vmatrix} = 0$

$\lambda ^ 2 - (A+C)\lambda + AC - B^2 = 0$

$\lambda = \frac {(A+C) +- \sqrt{(A+C)^2 - 4AC + B^2}}{2} = \\ \frac {(A+C) +- \sqrt{(A-C)^2 + B^2}}{2}$

此时一定有：
$\ge \sqrt{(A-C)^2 + B^2}}$

通过《高等数学》的结论 $AC > B^2$ 一定可以推出其矩阵的特征值大于0。

hessian矩阵的特征值和梯度下降
$\color{red}hessian矩阵特征值的\color{green}绝对值\color{red}最大的为梯度下降最快的方向$
这个论述是显而易见，训练数据可以看做向量，各个元素的比重相同，因此，一个向量中梯度最大的元素作为整个向量的梯度下降方向是合适的。