局部最优点和鞍点

最新推荐文章于 2022-11-16 12:20:21 发布

夏天的爱人是绿色

最新推荐文章于 2022-11-16 12:20:21 发布

阅读量850

点赞数

分类专栏：机器学习、深度学习文章标签：矩阵线性代数算法

本文链接：https://blog.csdn.net/qq_44159782/article/details/121754474

版权

机器学习、深度学习专栏收录该内容

18 篇文章 4 订阅

订阅专栏

一、什么是鞍点

造成神经网络难以优化的一个重要原因不是高维优化问题中有很多局部极值，而是存在大量鞍点。
很多实际的经验告诉我们，最后只能收敛到一个最小值，也就是说，很多现实实际问题是只有一个最小值的,但这个最小值通常是鞍点。

造成神经网络难以优化的一个重要原因是存在大量鞍点。造成局部极值这种误解的原因在于，人们把低维的直观认识直接推到高维的情况。在一维情况下，局部极值是仅有的造成优化困难的情形（Hessian矩阵只有一个特征值）。

海森矩阵不定的话就是鞍点，正定或者负定的话不是鞍点

二、局部最优点和鞍点的区别

最优点和鞍点的区别在于其在各个维度是否都是最低点嘛，只要某个一阶导数为0的点在某个维度上是最高点而不是最低点，那它就是鞍点。而区分最高点和最低点当然就是用二阶导数（斜率从负变正的过程当然就是“下凸”，即斜率的导数大于0，即二阶导数大于0。反之则为“上凹”，二阶导数小于0）。也就是说，若某个一阶导数为0的点在至少一个方向上的二阶导数小于0，那它就是鞍点啦。

三、如何逃离鞍点

如果你沿着中间部分往下走，你最终会摆脱它，但这可能需要很长时间。这只是两个维度上，但如果你有上十万甚至上百万维度呢？就像现在一般的研究中一样。在这种情况下，可能只有一条出路，其他的方向都不行，所以要找到逃逸的方向可能要花很长时间。当维度越来越大的时候，就有问题了。基于梯度下降的算法可能会有麻烦。
只用一阶导数是难以区分最优点和鞍点的。但如果你有一个海森矩阵，这个问题将会消失，因为你会知道所有的方向，但你必须计算一个海森矩阵的特征向量。这两种情况都不好，因为它太复杂了也太慢。所以梯度方法是个问题。

其实解决办法很简单，加噪音即可，每一步给gradient descent加上一个随机的扰动ε。满足下面三个条件中的一个：

（1）在x处它的gradient足够大

（2）在x处它的Hessian至少有一个足够小的负的eigenvalue，也就是说该eigenvalue小于-ε

（3）x离一个局部最小值很近。

另外一个算法也是基于随机扰动的，但并不是每一步都加扰动，而是在满足一些特定条件下才加。这个条件分为两部分：

(1)gradient的norm小于一个常数g，这意味着我们可能在鞍点附件

(2)在过去的t个iteration中我们没有加扰动，也就是说最少也要每t步才加一次扰动。

夏天的爱人是绿色

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
局部最优点和鞍点

一、什么是鞍点造成神经网络难以优化的一个重要原因不是高维优化问题中有很多局部极值，而是存在大量鞍点。很多实际的经验告诉我们，最后只能收敛到一个最小值，也就是说，很多现实实际问题是只有一个最小值的,但这个最小值通常是鞍点。造成神经网络难以优化的一个重要原因是存在大量鞍点。造成局部极值这种误解的原因在于，人们把低维的直观认识直接推到高维的情况。在一维情况下，局部极值是仅有的造成优化困难的情形（Hessian矩阵只有一个特征值）。海森矩阵不定的话就是鞍点，正定或者负定的话不是鞍点二、局部最优
复制链接

扫一扫