Datawhale X 李宏毅苹果书 AI 夏令营第五期:深度学习进阶:task1学习笔记

我们往往通过调整模型的参数实现模型训练过程的优化,这就需要我们观察并找到一个损失最低的一个点,这个点称作临界点。

临界点的特点就是模型在该点的梯度接近于零,在这种情况下,我们往往会认定损失无法下降。

临界点存在三种可能性:局部极小值,局部极大值,鞍点。事实上,前两者很容易理解,但鞍点这一概念稍许抽象。举个例子,在三维空间里,局部极小/大值点的含义是某一个点,这个点不管是在x轴方向还是y轴方向,它在z轴的值都是一个极小/大值;而鞍点可能在x轴方向上为极大值的同时,在y轴方向上为极小值。

所以我们需要一个方法去判定当我们梯度下降接近于零时,即我们找到一个临界值时,我们怎么知道他是局部极值还是鞍点?这就需要我们探索模型损失函数的形状,我们需要知道损失函数模型长什么样子,我们才能直观地看出哪里是局部极值,哪里是鞍点。我们往往采用泰勒级数近似公式,这个公式里有两个重要组成部分,一个叫梯度,一个叫海森矩阵。梯度的作用是判定我们找到的点是不是一个临界点:当我们找到临界点时,梯度为零;而海森矩阵的作用是观察“误差地貌”,准确地说,海森矩阵能够帮助我们判定临界点的种类,是局部极值?还是鞍点?

海森矩阵是一种帮我们判定是否为鞍点的方式,当然除此之外还有很多种判定临界点种类的方式,海森矩阵由于计算复杂,因此不是最好的方式。
我们期望用xx方式来判定临界点的种类,我们希望逃离鞍点而找到局部极值。但事实上,鞍点并不是一个差劲的结果,我们并不需要排斥鞍点,因为低维空间的很多局部极小值在高维空间就是鞍点。

关于升维带给局部极值和鞍点的变化问题,最后我希望分享一下我个人的新的理解,如果你能坚持看这篇文章到这一步,衷心感谢你,也希望能与你交流。对模型做误差,做梯度下降,就相当于我们评价一个历史人物,我们期望能够得到一个综合评分能够客观地衡量这个人物的一切,但是如果我们的评价维度越狭隘,比如说我们评价三国人物,我们只看战绩,谁打仗赢得多,谁的综合评分就高,那么这个误差就越容易找到局部极值,因为评价维度只有一个,直接把史料中记载的胜负比拿出来即可得到综合评分(仅军事维度),它的权重是单一的。换一种思路,如果我们增加内政维度,评价一个历史人物你需要从军事和内政两个维度考虑,那么很多原来的极值点就会变成鞍点,我们原来认为的误差极低的点变成了鞍点,原来认为的对历史人物最最客观的评价在新的维度的误差却很高。也就是说梯度下降为0的临界点在某个维度的误差很低,但在另一个维度的误差可能很高,就像我们从内政和军事两个维度评价孙权这个人(孙权善于内政而不善于军事),当我们说孙权(综合评分)很厉害时,他的内政维度的误差就会很低(内政表示说得太客观了,孙权内政很强),但是他的军事维度的误差就会很高(军事表示说得太离谱了,孙权军事很拉胯),这就是一个鞍点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值