机器学习--神经网络训练:局部最小值和鞍点

一、Loss降不下去的两种可能情况

在之前的机器学习中,我们学到模型的优化方式,如果在一点Loss函数降不下去了,那么说明我们在这个点(critical point)的梯度趋近于零。这个有两种情况,一种就是我们真正找到了Local minima(局部最小值),还有一种情况就是我们找到了一个saddle point(鞍点)如图所示,(想象你坐在这个马鞍上)这种情况我们按原来的优化方式可能就是我们的点在前后移动,但这时得到的Loss都比我们的saddle point要小,所以我们需要改进我们的优化方式,让我们的点左右移动,减小我们的Loss值。
在这里插入图片描述

二、如何判断是哪种情况

1.用一点线性代数的知识来表示这个点周围的Loss值情。

g表示一个向量,critical point的Loss值对c塔微分,H表示一个海森矩阵,这里我们只取两个c塔求critical point 的Loss对这两个c塔的二元微分,得到的四个二元微分组成一个2*2的矩阵,当然实际情况会比这个复杂许多,这里只是举一个简单的例子。
在这里插入图片描述

2.海森矩阵的作用

在critical point周围,第二项很小可以忽略,我们可以从第三项来判断到底时哪种情况。
在这里插入图片描述
我们把第三项看成是c塔- critical point向量(这里写成了v)的转置,乘以海森矩阵,再乘以这个向量本身,它的值我们把它称为特征值。

1.如果对于向量v 的任意取值,特征值都大于0 时,那么这个critical point 就是我们的 Local minima。但是我们不可能把所有值都带进去试,这里用线代的结论,如果海森矩阵值为正,则所有特征值都是正的,即周围所有取值的Loss 都比critical point的Loss值要大,所以说对应的是Local minima

2.反之,如果v任意取值,特征值都小于0时,这个critical point 就是Local maxima 即局部最大值,当海森矩阵为正时取得。

3.如果说特征值有的时候为正,有的时候为负时,可以想象,有些地方critical point 的Loss 大,有些地方比他小,此时就是一个鞍点。
在这里插入图片描述

3.一个简单的例子

这是一个很简单的函数,我们让x,y都等于1,来看一下我们的Error Surface,在四个角处的Loss都比较大,对于(0,0)这个点,我们可以看出向左上和右下两个方向Loss在变大,而朝着左下和右上两个方向Loss变小,是一个典型的鞍点,左下和右上两个方向山谷中的点,朝任意方向Loss值都会增大,所以是Local minima。
在这里插入图片描述
如果看图还不够清晰的话,可以实践动手来算一算。

在这里插入图片描述
计算(0,0)这个点的梯度,等于0 说明是critical point,再来看他的海森矩阵的值,这里是带他周围的点对应的v 向量进去算 特征值,可见有正有负,说明是鞍点。

海森函数还有更nb 的作用,他可以告诉你该往哪个方向更新你的变量。
在这里插入图片描述
取u为海森矩阵的一个特征向量,那慕达为u的一个特征值,这样我们的第三项就由那慕达决定,取那慕达小于0,那么得到的Loss就会小于我们critical point 对应的Loss ,沿着我们的特征向量u的方向移动,这样就能够逃离鞍点,也就是我们最开始说的左右移动,但是我们的这个方法不常用,因为去微分计算海森矩阵是一个很大的运算量,过于复杂。

4. saddle point 和 local minima到底谁更常见呢

这里将一个魔法师的故事,有一个完全封闭的石棺里面有一个皇冠,他没动石棺就把其中的皇冠给取了出来,从三维来讲,这不可能实现,但是从更高维度来说,这未必不可能。
在这里插入图片描述
类比我们就可以知道,在二维来看这可能是一个Local minima,但是在更高维度中这会不会是一个saddle point呢?在这里插入图片描述
举一个实际模型训练的例子:
在这里插入图片描述
当Loss基本不再变化时,Minimum ratio图中有解释,即正的特征值占所有特征值的比例,实际上这个值会趋近于1,但是肯定是不会真正变成一个Local minima的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值