深度学习-Optimization-Local Minimum And Saddle Point

最新推荐文章于 2022-08-14 00:31:40 发布

AI_王布斯

最新推荐文章于 2022-08-14 00:31:40 发布

阅读量351

点赞数 1

分类专栏：深度学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42189597/article/details/119886482

版权

深度学习同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

笔记

11 篇文章 0 订阅

订阅专栏

训练失败的原因

现在我们要讲的是Optimization的部分,所以我们要讲的东西基本上跟Overfitting没有什麼太大的关联,我们只讨论Optimization的时候,怎麼把gradient descent做得更好,那為什麼Optimization会失败呢？
在这里插入图片描述
你常常在做Optimization的时候,你会发现,随著你的参数不断的update,你的training的loss不会再下降,但是你对这个loss仍然不满意,就像我刚才说的,你可以把deep的network,跟linear的model,或比较shallow network 比较,发现说它没有做得更好,所以你觉得deepnetwork,没有发挥它完整的力量,所以Optimization显然是有问题的.

但有时候你会甚至发现,一开始你的model就train不起来,一开始你不管怎麼update你的参数,你的loss通通都掉不下去,那这个时候到底发生了什麼事情呢？

过去常见的一个猜想,是因為我们现在走到了一个地方,这个地方参数对loss的微分為零,当你的参数对loss微分為零的时候,gradient descent就没有办法再update参数了,这个时候training就停下来了,loss当然就不会再下降了。

讲到gradient為零的时候,大家通常脑海中最先浮现的,可能就是local minima,所以常有人说做deep learning,用gradient descent会卡在local minima,然后所以gradient descent不work,所以deep learning不work。
在这里插入图片描述
因為不是只有local minima的gradient是零,还有其他可能会让gradient是零,比如说 saddle point,所谓的saddle point,其实就是gradient是零,但是不是local minima,也不是local maxima的地方,像在右边这个例子裡面红色的这个点,它在左右这个方向是比较高的,前后这个方向是比较低的,它就像是一个马鞍的形状,所以叫做saddle point,那中文就翻成鞍点.

但是今天如果你发现你的gradient,真的很靠近零,卡在了某个critical point,我们有没有办法知道,到底是local minima,还是saddle point？其实是有办法的.

為什麼我们想要知道到底是卡在local minima,还是卡在saddle point呢?

因為如果是卡在local minima,那可能就没有路可以走了,因為四周都比较高,你现在所在的位置已经是最低的点,loss最低的点了,往四周走 loss都会比较高,你会不知道怎麼走到其他的地方去.
但saddle point就比较没有这个问题,如果你今天是卡在saddle point的话,saddle
point旁边还是有路可以走的,还是有路可以让你的loss更低的,你只要逃离saddle point,你就有可能让你的loss更低.

所以鉴别今天我们走到,critical point的时候,到底是local minima,还是saddle point,是一个值得去探讨的问题,那怎麼知道今天一个critical point,到底是属於local minima,还是saddle point呢？

判断critical point 类型的数学理论

你要知道我们loss function的形状,可是我们怎麼知道,loss function的形状呢,network本身很复杂,用复杂network算出来的loss function,显然也很复杂,我们怎麼知道loss function,长什麼样子,虽然我们没有办法完整知道,整个loss function的样子

Tayler Series Approximation

但是如果给定某一组参数,比如说蓝色的这个 $\theta'$ ,在 $\theta'$ 附近的loss function,是有办法被写出来的,它写出来就像是这个样子.

在这里插入图片描述
所以这个 $L(\theta)$ 完整的样子写不出来,但是它在 $\theta'$ 附近,你可以用这个式子来表示它,这个式子是,Tayler Series Appoximation泰勒级数展开,这个假设你在微积分的时候,已经学过了,所以我就不会细讲这一串是怎麼来的,但我们就只讲一下它的概念,这一串裡面包含什麼东西呢?
在这里插入图片描述
g是一个向量,这个g就是我们的gradient,我们用绿色的这个g来代表gradient,这个gradient会来弥补, $\theta$ 跟 $\theta'$ 之间的差距,我们虽然刚才说跟,它们应该很接近,但是中间还是有一些差距的,那这个差距,第一项我们用这个gradient,来表示他们之间的差距,这个地方的是一个向量,它的第i个component,就是θ的第i个component对L的微分,光是看g还是没有办法,完整的描述L(θ),你还要看第三项,第三项跟Hessian有关,这边有一个H.
在这里插入图片描述
那如果我们今天走到了一个critical point,意味著gradient為零,也就是绿色的这一项完全都不见了.

g是一个zero vector,绿色的这一项完全都不见了,只剩下红色的这一项,所以当在critical point的时候,这个loss function,它可以被近似為 $L(\theta')$ ,加上红色的这一项我们可以根据红色的这一项来判断,在 $\theta'$ 附近的error surface,到底长什麼样子.

知道error surface长什麼样子,我就可以判断它是一个local minima,是一个local maxima,还是一个saddle point

判断的结果如下所示：
在这里插入图片描述

AI_王布斯

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习-Optimization-Local Minimum And Saddle Point

训练失败的原因现在我们要讲的是Optimization的部分,所以我们要讲的东西基本上跟Overfitting没有什麼太大的关联,我们只讨论Optimization的时候,怎麼把gradient descent做得更好,那為什麼Optimization会失败呢？你常常在做Optimization的时候,你会发现,随著你的参数不断的update,你的training的loss不会再下降,但是你对这个loss仍然不满意,就像我刚才说的,你可以把deep的network,跟linear的model,或比较s
复制链接

扫一扫

专栏目录