鞍点

在数学中,鞍点或极小值点是函数图形表面上的一个点,其正交方向上的斜率(导数)均为零(临界点),但不是函数的局部极值。一句话概括就是:

一个不是局部极值点的驻点称为鞍点。
驻点:函数在一点处的一阶导数为零
在这里插入图片描述
如下图所示,是函数 z = x2 - y2 图像,其鞍点在 (0, 0) 位置。函数 z 的整个曲面看上去就像是一个马鞍,其在 x 轴方向向上曲,在 y 轴方向向下曲。所以这也是鞍点这个名字的由来。
在这里插入图片描述
局部极小值和鞍点
局部极小值和鞍点的相同点是,在该点处的梯度(导数)都为零。从上面可以看出,局部极小值和鞍点的区别就在于,在该点处的 Hessian 矩阵的特性。如果 Hessian 矩阵在该点处是正定的,则为局部极小值;如果为不定的,则为鞍点。
鞍点通常是神经网络训练的困难之处。如下图所示,是一个包含两个参数的神经网络,是一个低维度的图,可以发现其存在很多的局部极小值,训练神经网络的时候,通常会陷入这些极小值中。事实上,建立的神经网络包含大量的参数,造成局部最优的困惑不是这些极小值点,而是零梯度点,通常为鞍点。

为什么说鞍点是训练神经网络的困难之处呢?因为鞍点的存在,会有一个平稳段,在该平稳段,函数的导数会长时间接近于 0,这使得神经网络的训练变得缓慢。
在这里插入图片描述
如何证明一个点为鞍点
Hessian 矩阵是一个凸函数,并且是正半定的。通过这一属性,我们可以测试临界点 x 是局部最大值,或者是局部最小值还是鞍点。如下所示:

如果 H 在 x 处为正定矩阵时,则函数 f 在 x 处有一个局部极小值;
如果 H 在 x 处为负定矩阵时,则函数 f 在 x 处有一个局部极大值;
如果 H 在 x 处为不定矩阵时(即同时有正特征值和负特征值),则函数 f 在 x 处为鞍点。

所以,一个简单标准的方法验证一个静止点是否为一个实数函数的鞍点,就是计算该函数的在该点上的 Hessian 矩阵。如果该 Hessian 矩阵为不定的,则该点为该函数的鞍点。

  • 14
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
点是指函数在某个点的梯度为零,且该点的“拐点”(也就是 Hessian 矩阵的矩阵特征值有正有负)的点。在 C 语言中,可以使用数值优化库,如 GSL(GNU Scientific Library)或 NAG(Numerical Algorithms Group)库来找到函数的点。 下面是使用 GSL 库找到函数的点的示例代码: ```c #include <stdio.h> #include <gsl/gsl_multimin.h> // 定义函数 double func(const gsl_vector *v, void *params) { double x = gsl_vector_get(v, 0); double y = gsl_vector_get(v, 1); return x * x - y * y; } // 定义函数的梯度 void grad(const gsl_vector *v, void *params, gsl_vector *df) { double x = gsl_vector_get(v, 0); double y = gsl_vector_get(v, 1); gsl_vector_set(df, 0, 2 * x); gsl_vector_set(df, 1, -2 * y); } int main() { const gsl_multimin_fdfminimizer_type *T; gsl_multimin_fdfminimizer *s; int iter = 0, status; const size_t n = 2; double eps = 1e-8; // 初始点 gsl_vector *x = gsl_vector_alloc(n); gsl_vector_set(x, 0, 1.0); gsl_vector_set(x, 1, 1.0); // 定义函数及梯度 gsl_multimin_function_fdf my_func; my_func.n = n; my_func.f = &func; my_func.df = &grad; my_func.fdf = NULL; my_func.params = NULL; // 定义优化器类型 T = gsl_multimin_fdfminimizer_conjugate_fr; s = gsl_multimin_fdfminimizer_alloc(T, n); // 初始化优化器 gsl_multimin_fdfminimizer_set(s, &my_func, x, 0.01, eps); do { iter++; status = gsl_multimin_fdfminimizer_iterate(s); if (status) break; status = gsl_multimin_test_gradient(s->gradient, eps); } while (status == GSL_CONTINUE && iter < 100); printf("Minimum found at:\n"); printf("%5.5f %5.5f\n", gsl_vector_get(s->x, 0), gsl_vector_get(s->x, 1)); gsl_multimin_fdfminimizer_free(s); gsl_vector_free(x); return 0; } ``` 该示例代码中,我们首先定义了函数 `func` 和它的梯度 `grad`。然后,我们使用 GSL 库中的 `gsl_multimin_fdfminimizer` 类型来定义优化器。在初始化优化器时,我们通过 `gsl_multimin_fdfminimizer_set` 函数将函数及梯度传递给了优化器。最后,我们使用 `gsl_multimin_fdfminimizer_iterate` 函数迭代求解函数的点,并使用 `gsl_multimin_test_gradient` 函数检查是否已收敛。 需要注意的是,由于点通常比最小值或最大值更难以找到,因此需要更多的迭代次数和更小的收敛阈值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值