【李宏毅机器学习·学习笔记】when gradient is small-Critical Point (local extramum/ critical point)

最新推荐文章于 2024-04-24 23:38:25 发布

MilkLeong

最新推荐文章于 2024-04-24 23:38:25 发布

阅读量85

点赞数

分类专栏：李宏毅机器学习文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/milkleong/article/details/132093847

版权

李宏毅机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本节课主要内容是介绍optimization失败后，如何对失败原因进行判定。当optimization不再起作用，参数对loss的微分趋近于0，gradient为0无法再update参数，而loss还很大，此时是卡在了local minima/local maxima，还是卡在了saddle point？课程引入了critical point的概念，并用Tayler Series Approximation来判定是卡在局部极值点还是saddle point。最后对局部极值点出现的概率进行了分析。
课程视频：
Youtube：https://www.youtube.com/watch?v=QW6uINn7uGk
知乎：https://www.zhihu.com/zvideo/1616815017386598400
课程PPT：
https://view.officeapps.live.com/op/view.aspx?src=https%3A%2F%2Fspeech.ee.ntu.edu.tw%2F~hylee%2Fml%2Fml2021-course-data%2Fsmall-gradient-v7.pptx&wdOrigin=BROWSELINK

以下是本节课的课程笔记。

一、Critical Point

在对training data进行optimization时，有时明明训练集上的loss还比较大，但是参数对loss的微分，即gradient值却趋近于0。这种情况表明，我们的optimization可能有点问题。我们将gradient为0的点统称为Critical Point，这些点可能是局部的极值点，也可能是saddle point (gradient为0的点，但不是极值点；如图中的saddle point，对左右方向而言，它是最低点，对前后方向而言，它是最高点，像一个马鞍的形状，因而也称为鞍点)。
在这里插入图片描述
当optimization陷入gradient为0的点时，可以通过分析在该点是否还有路可走，来辨别training loss是卡在了局部极值点还是saddle point。
如上图左边，training loss卡在了local minima这个地方，它四周的gradient值都比它大，在该点，整个training process呈现的是无路可走的状态。
而在上图的右边，training loss卡在了saddle point，尽管该点gradient值为0，但是还是能找到比该点低的点，因而optimization可以继续做下去。

二、Tayler Series Approximation

在数学上，我们可以用Tayler Series Approximation来对极值点和鞍点进行区分。
在这里插入图片描述
如上图，假设θ’为θ附近的一个点，我们用上图中的约等式来用L(θ’)近似L(θ)。图中加式第二项(绿框中的内容)表示L(θ’)与L(θ)之间的偏差（对应图片右部绿色虚线）；图中加式第三项(红框中的内容)，表示加式前两项加和之后与真正的L(θ)之间的偏差（对应图中右部红色虚线）。其中gi为向量，表示θi对L(θ‘)的偏微分；H表示矩阵，其元素Hij表示在θ’i对L(θ‘)的偏微分的基础上(θj)再对L(θ)进行偏微分。
在这里插入图片描述
当处在critical point时，gi为0，加式的第二项为0，我们可以通过加式的第三项来判断此时traing process是处在local minima、local maxima，还是saddle point。

令θ-θ’=v，v[T]Hv的取值可以分为三种情况：
（1）如果对于所有的v，该值都大于0，则在θ’，总有L(θ)>L(θ’)，L(θ’)为local minima（等价于H的所有特征值为正）；
（2）如果对于所有的v，该值都小于0，则在θ’，总有L(θ)<L(θ’)，L(θ’)为local mixima （等价于H的所有特征是为负）；
（3）如果随着v的取值不同v[T]Hv有时大于0，有时小于0，则θ’对应saddle point （等价于H的特征值部分为正，部分为负）。

在这里插入图片描述
如果是卡在saddle则不必太过担心，因为通过找到H的特征向量u，或许我们能知道参数更新的方向。（尽管这种方式在实际中很少被应用）

三、Saddle Point v.s. Local Minima

在高维空间中，traing process卡在局部极值的情况其实并不常见。
参考文献：https://arxiv.org/abs/1712.09913
在这里插入图片描述
上图左上，红点看似卡在了local minima，但是对应更高维的空间，它其实处在saddle point。

有实际的实验表明，在对深度神经网络进行训练的过程中，当loss值趋近为0时，local minima出现的概率也至多为50%。

TODO：
（1）复习Tayler Series Approximation中涉及的微积分知识与线性代数知识，并补充学习笔记；
（2）阅读参考文献。

MilkLeong

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【李宏毅机器学习·学习笔记】when gradient is small-Critical Point (local extramum/ critical point)

本节课主要内容是介绍optimization失败后，如何对失败原因进行判定。当optimization不再起作用，参数对loss的微分趋近于0，gradient为0无法再update参数，而loss还很大，此时是卡在了local minima/local maxima，还是卡在了saddle point？课程引入了critical point的概念，并用Tayler Series Approximation来判定是卡在局部极值点还是saddle point。最后对局部极值点出现的概率进行了分析。
复制链接

扫一扫