Datawhale X 李宏毅苹果书 AI 夏令营第五期：深度学习进阶：task1学习笔记

2301_80324436

已于 2024-08-28 13:31:37 修改

阅读量318

点赞数 4

文章标签：人工智能深度学习学习

于 2024-08-27 16:23:52 首次发布

本文链接：https://blog.csdn.net/2301_80324436/article/details/141606056

版权

我们往往通过调整模型的参数实现模型训练过程的优化，这就需要我们观察并找到一个损失最低的一个点，这个点称作临界点。

临界点的特点就是模型在该点的梯度接近于零，在这种情况下，我们往往会认定损失无法下降。

临界点存在三种可能性：局部极小值，局部极大值，鞍点。事实上，前两者很容易理解，但鞍点这一概念稍许抽象。举个例子，在三维空间里，局部极小/大值点的含义是某一个点，这个点不管是在x轴方向还是y轴方向，它在z轴的值都是一个极小/大值；而鞍点可能在x轴方向上为极大值的同时，在y轴方向上为极小值。

所以我们需要一个方法去判定当我们梯度下降接近于零时，即我们找到一个临界值时，我们怎么知道他是局部极值还是鞍点？这就需要我们探索模型损失函数的形状，我们需要知道损失函数模型长什么样子，我们才能直观地看出哪里是局部极值，哪里是鞍点。我们往往采用泰勒级数近似公式，这个公式里有两个重要组成部分，一个叫梯度，一个叫海森矩阵。梯度的作用是判定我们找到的点是不是一个临界点：当我们找到临界点时，梯度为零；而海森矩阵的作用是观察“误差地貌”，准确地说，海森矩阵能够帮助我们判定临界点的种类，是局部极值？还是鞍点？

海森矩阵是一种帮我们判定是否为鞍点的方式，当然除此之外还有很多种判定临界点种类的方式，海森矩阵由于计算复杂，因此不是最好的方式。
我们期望用xx方式来判定临界点的种类，我们希望逃离鞍点而找到局部极值。但事实上，鞍点并不是一个差劲的结果，我们并不需要排斥鞍点，因为低维空间的很多局部极小值在高维空间就是鞍点。

关于升维带给局部极值和鞍点的变化问题，最后我希望分享一下我个人的新的理解，如果你能坚持看这篇文章到这一步，衷心感谢你，也希望能与你交流。对模型做误差，做梯度下降，就相当于我们评价一个历史人物，我们期望能够得到一个综合评分能够客观地衡量这个人物的一切，但是如果我们的评价维度越狭隘，比如说我们评价三国人物，我们只看战绩，谁打仗赢得多，谁的综合评分就高，那么这个误差就越容易找到局部极值，因为评价维度只有一个，直接把史料中记载的胜负比拿出来即可得到综合评分（仅军事维度），它的权重是单一的。换一种思路，如果我们增加内政维度，评价一个历史人物你需要从军事和内政两个维度考虑，那么很多原来的极值点就会变成鞍点，我们原来认为的误差极低的点变成了鞍点，原来认为的对历史人物最最客观的评价在新的维度的误差却很高。也就是说梯度下降为0的临界点在某个维度的误差很低，但在另一个维度的误差可能很高，就像我们从内政和军事两个维度评价孙权这个人（孙权善于内政而不善于军事），当我们说孙权（综合评分）很厉害时，他的内政维度的误差就会很低（内政表示说得太客观了，孙权内政很强），但是他的军事维度的误差就会很高（军事表示说得太离谱了，孙权军事很拉胯），这就是一个鞍点。

2301_80324436

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫