鞍点

lalalagjl

于 2019-06-24 15:46:33 发布

阅读量1.2w

点赞数 15

在数学中，鞍点或极小值点是函数图形表面上的一个点，其正交方向上的斜率(导数)均为零(临界点)，但不是函数的局部极值。一句话概括就是：

一个不是局部极值点的驻点称为鞍点。
驻点：函数在一点处的一阶导数为零
在这里插入图片描述
如下图所示，是函数 z = x2 - y2 图像，其鞍点在 (0, 0) 位置。函数 z 的整个曲面看上去就像是一个马鞍，其在 x 轴方向向上曲，在 y 轴方向向下曲。所以这也是鞍点这个名字的由来。

局部极小值和鞍点
局部极小值和鞍点的相同点是，在该点处的梯度（导数）都为零。从上面可以看出，局部极小值和鞍点的区别就在于，在该点处的 Hessian 矩阵的特性。如果 Hessian 矩阵在该点处是正定的，则为局部极小值；如果为不定的，则为鞍点。
鞍点通常是神经网络训练的困难之处。如下图所示，是一个包含两个参数的神经网络，是一个低维度的图，可以发现其存在很多的局部极小值，训练神经网络的时候，通常会陷入这些极小值中。事实上，建立的神经网络包含大量的参数，造成局部最优的困惑不是这些极小值点，而是零梯度点，通常为鞍点。

为什么说鞍点是训练神经网络的困难之处呢？因为鞍点的存在，会有一个平稳段，在该平稳段，函数的导数会长时间接近于 0，这使得神经网络的训练变得缓慢。
在这里插入图片描述
如何证明一个点为鞍点
Hessian 矩阵是一个凸函数，并且是正半定的。通过这一属性，我们可以测试临界点 x 是局部最大值，或者是局部最小值还是鞍点。如下所示：