假设一个函数的输入为为向量,那么它的Hessian矩阵有k个特征值,该函数在梯度为0的位置上可能是局部最小值、局部最大值或者鞍点。
- 当函数的Hessian矩阵在梯度为0的位置上的特征值全为正时,该函数得到局部最小值。
- 当函数的Hessian矩阵在梯度为0的位置上的特征值全为负时,该函数得到局部最小值。
- 当函数的Hessian矩阵在梯度为0的位置上的特征值有正有负时,该函数得到鞍点。
随机矩阵理论告诉我们,对于一个大的高斯随机矩阵来说,任一特征值是正或者是负的概率都是0.5,那么,以上第一种情况的概率为。由于深度学习模型参数通常都是高维的,目标函数的鞍点通常比局部极小值更常见。