机器学习--神经网络训练：局部最小值和鞍点

ちゆきー

已于 2024-02-28 16:48:11 修改

阅读量445

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-10-16 19:26:57 首次发布

本文链接：https://blog.csdn.net/projectfailed/article/details/133861592

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

一、Loss降不下去的两种可能情况

在之前的机器学习中，我们学到模型的优化方式，如果在一点Loss函数降不下去了，那么说明我们在这个点（critical point）的梯度趋近于零。这个有两种情况，一种就是我们真正找到了Local minima（局部最小值），还有一种情况就是我们找到了一个saddle point（鞍点）如图所示，（想象你坐在这个马鞍上）这种情况我们按原来的优化方式可能就是我们的点在前后移动，但这时得到的Loss都比我们的saddle point要小，所以我们需要改进我们的优化方式，让我们的点左右移动，减小我们的Loss值。
在这里插入图片描述

二、如何判断是哪种情况

1.用一点线性代数的知识来表示这个点周围的Loss值情。

g表示一个向量，critical point的Loss值对c塔微分，H表示一个海森矩阵，这里我们只取两个c塔求critical point 的Loss对这两个c塔的二元微分，得到的四个二元微分组成一个2*2的矩阵，当然实际情况会比这个复杂许多，这里只是举一个简单的例子。
在这里插入图片描述

2.海森矩阵的作用

在critical point周围，第二项很小可以忽略，我们可以从第三项来判断到底时哪种情况。
在这里插入图片描述
我们把第三项看成是c塔- critical point向量（这里写成了v）的转置，乘以海森矩阵，再乘以这个向量本身，它的值我们把它称为特征值。

1.如果对于向量v 的任意取值，特征值都大于0 时，那么这个critical point 就是我们的 Local minima。但是我们不可能把所有值都带进去试，这里用线代的结论，如果海森矩阵值为正，则所有特征值都是正的，即周围所有取值的Loss 都比critical point的Loss值要大，所以说对应的是Local minima

2.反之，如果v任意取值，特征值都小于0时，这个critical point 就是Local maxima 即局部最大值，当海森矩阵为正时取得。

3.如果说特征值有的时候为正，有的时候为负时，可以想象，有些地方critical point 的Loss 大，有些地方比他小，此时就是一个鞍点。
在这里插入图片描述

3.一个简单的例子

这是一个很简单的函数，我们让x，y都等于1，来看一下我们的Error Surface，在四个角处的Loss都比较大，对于（0，0）这个点，我们可以看出向左上和右下两个方向Loss在变大，而朝着左下和右上两个方向Loss变小，是一个典型的鞍点，左下和右上两个方向山谷中的点，朝任意方向Loss值都会增大，所以是Local minima。
在这里插入图片描述
如果看图还不够清晰的话，可以实践动手来算一算。

在这里插入图片描述
计算（0，0）这个点的梯度，等于0 说明是critical point，再来看他的海森矩阵的值，这里是带他周围的点对应的v 向量进去算特征值，可见有正有负，说明是鞍点。

海森函数还有更nb 的作用，他可以告诉你该往哪个方向更新你的变量。
在这里插入图片描述
取u为海森矩阵的一个特征向量，那慕达为u的一个特征值，这样我们的第三项就由那慕达决定，取那慕达小于0，那么得到的Loss就会小于我们critical point 对应的Loss ，沿着我们的特征向量u的方向移动，这样就能够逃离鞍点，也就是我们最开始说的左右移动，但是我们的这个方法不常用，因为去微分计算海森矩阵是一个很大的运算量，过于复杂。

4. saddle point 和 local minima到底谁更常见呢

这里将一个魔法师的故事，有一个完全封闭的石棺里面有一个皇冠，他没动石棺就把其中的皇冠给取了出来，从三维来讲，这不可能实现，但是从更高维度来说，这未必不可能。
在这里插入图片描述
类比我们就可以知道，在二维来看这可能是一个Local minima，但是在更高维度中这会不会是一个saddle point呢？
举一个实际模型训练的例子：

当Loss基本不再变化时，Minimum ratio图中有解释，即正的特征值占所有特征值的比例，实际上这个值会趋近于1，但是肯定是不会真正变成一个Local minima的。

ちゆきー

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习--神经网络训练：局部最小值和鞍点

在之前的机器学习中，我们学到模型的优化方式，如果在一点Loss函数降不下去了，那么说明我们在这个点（critical point）的梯度趋近于零。这个有两种情况，一种就是我们真正找到了（局部最小值），还有一种情况就是我们找到了一个（鞍点）如图所示，（想象你坐在这个马鞍上）这种情况我们按原来的优化方式可能就是我们的点在前后移动，但这时得到的Loss都比我们的saddle point要小，所以我们需要改进我们的优化方式，让我们的点左右移动，减小我们的Loss值。
复制链接

扫一扫