深度学习进阶task1局部最小值与鞍点 Datawhale X 李宏毅苹果书 AI夏令营

深度学习进阶task1

局部最小值与鞍点

1、问题引入:

在做优化的时候有时候:随着参数不断更新,训练的损失不会再下降, 但是我们对这个损失仍然不满意。把深层网络、线性模型和浅层网络做比较,可以发现深层网络没有做得更好——深层网络没有发挥出它完整的力量,所以优化是有问题的。但有时候,模型一开始就训练不起来,不管我们怎么更新参数,损失都降不下去。

2、引入概念:几种临界点

过去常见的一个猜想是我们优化到某个地方,这个地方参数对损失的微分为零。当参数对损失微分为零的时候,梯度下降就不能再更新参数了,训练就停下来了,损失不再下降了。
梯度为零的时候,则有局部极小值和同样梯度是零且区别于局部极小值和局部极大值的点:鞍点。我们把梯度为零的点统称为临界点
损失没有办法再下降,也许是因为收敛在了临界点,但不一定收敛在局部极小值,因为鞍点也是梯度为零的点。但是如果一个点的梯度真的很接近零,我们走到临界点的时候,这个临界点到底是局部极小值还是鞍点,是一个值得去探讨的问题。

3、判断临界值种类的方法

判断一个临界点到底是局部极小值还是鞍点需要知道损失函数的形状。虽然无法完整知道整个损失函数的样子,但是如果给定某一组参数,则θ′,在 θ′ 附近的损失函数是可以近似为泰勒级数近似式:

泰勒
由此可得临界点时,损失函数近似式:
麦克斯韦
来判断在 θ′ 附近的误差表面(error surface)到底长什么样子,以此来判断 L(θ′) 是局部极小值、局部极大值,还是鞍点。

4、鞍点跟局部极小值谁比较常见?

我们常常会遇到两种情况:损失仍然很高,却遇到了临界点而不再下降;或者损失降得很低,才遇到临界点。实际上,我们几乎找不到所有特征值都为正的临界点。虽然对于任何一种情况,正特征数量占比越大代表临界点“看起来越像”局部极小值,但是这些点都不是真正的局部极小值。所以从经验上看起来,局部极小值并没有那么常见。多数的时候,我们训练到一个梯度很小的地方,参数不再更新,往往只是遇到了鞍点。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值