【李宏毅机器学习·学习笔记】when gradient is small-Critical Point (local extramum/ critical point)

本节课主要内容是介绍optimization失败后,如何对失败原因进行判定。当optimization不再起作用,参数对loss的微分趋近于0,gradient为0无法再update参数,而loss还很大,此时是卡在了local minima/local maxima,还是卡在了saddle point?课程引入了critical point的概念,并用Tayler Series Approximation来判定是卡在局部极值点还是saddle point。最后对局部极值点出现的概率进行了分析。
课程视频:
Youtube:https://www.youtube.com/watch?v=QW6uINn7uGk
知乎:https://www.zhihu.com/zvideo/1616815017386598400
课程PPT:
https://view.officeapps.live.com/op/view.aspx?src=https%3A%2F%2Fspeech.ee.ntu.edu.tw%2F~hylee%2Fml%2Fml2021-course-data%2Fsmall-gradient-v7.pptx&wdOrigin=BROWSELINK

以下是本节课的课程笔记。

一、Critical Point

在对training data进行optimization时,有时明明训练集上的loss还比较大,但是参数对loss的微分,即gradient值却趋近于0。这种情况表明,我们的optimization可能有点问题。我们将gradient为0的点统称为Critical Point,这些点可能是局部的极值点,也可能是saddle point (gradient为0的点,但不是极值点;如图中的saddle point,对左右方向而言,它是最低点,对前后方向而言,它是最高点,像一个马鞍的形状,因而也称为鞍点)。
在这里插入图片描述
当optimization陷入gradient为0的点时,可以通过分析在该点是否还有路可走,来辨别training loss是卡在了局部极值点还是saddle point。
如上图左边,training loss卡在了local minima这个地方,它四周的gradient值都比它大,在该点,整个training process呈现的是无路可走的状态。
而在上图的右边,training loss卡在了saddle point,尽管该点gradient值为0,但是还是能找到比该点低的点,因而optimization可以继续做下去。

二、Tayler Series Approximation

在数学上,我们可以用Tayler Series Approximation来对极值点和鞍点进行区分。
在这里插入图片描述
如上图,假设θ’为θ附近的一个点,我们用上图中的约等式来用L(θ’)近似L(θ)。图中加式第二项(绿框中的内容)表示L(θ’)与L(θ)之间的偏差(对应图片右部绿色虚线);图中加式第三项(红框中的内容),表示加式前两项加和之后与真正的L(θ)之间的偏差(对应图中右部红色虚线)。其中gi为向量,表示θi对L(θ‘)的偏微分;H表示矩阵,其元素Hij表示在θ’i对L(θ‘)的偏微分的基础上(θj)再对L(θ)进行偏微分。
在这里插入图片描述
当处在critical point时,gi为0,加式的第二项为0,我们可以通过加式的第三项来判断此时traing process是处在local minima、local maxima,还是saddle point。
在这里插入图片描述
θ-θ’=v,v[T]Hv的取值可以分为三种情况:
(1)如果对于所有的v,该值都大于0,则在θ’,总有L(θ)>L(θ’),L(θ’)为local minima(等价于H的所有特征值为正);
(2)如果对于所有的v,该值都小于0,则在θ’,总有L(θ)<L(θ’),L(θ’)为local mixima (等价于H的所有特征是为负);
(3)如果随着v的取值不同v[T]Hv有时大于0,有时小于0,则θ’对应saddle point (等价于H的特征值部分为正,部分为负)。

在这里插入图片描述
如果是卡在saddle则不必太过担心,因为通过找到H的特征向量u,或许我们能知道参数更新的方向。(尽管这种方式在实际中很少被应用)

三、Saddle Point v.s. Local Minima

在高维空间中,traing process卡在局部极值的情况其实并不常见。
参考文献:https://arxiv.org/abs/1712.09913
在这里插入图片描述
上图左上,红点看似卡在了local minima,但是对应更高维的空间,它其实处在saddle point。
在这里插入图片描述
有实际的实验表明,在对深度神经网络进行训练的过程中,当loss值趋近为0时,local minima出现的概率也至多为50%。

TODO:
(1)复习Tayler Series Approximation中涉及的微积分知识与线性代数知识,并补充学习笔记;
(2)阅读参考文献。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值