Datawhale X 李宏毅苹果书 AI夏令营 task1

Liuyh1230

于 2024-08-26 17:45:47 发布

阅读量330

点赞数 10

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/L1951381654/article/details/141561213

版权

1.局部最小值与鞍点的区别？

相同点这点的梯度都为0
不同点：局部最小值：某个邻域内损失函数比周围其他点都小，是一个“谷底”。
鞍点：在不同方向上变化趋势不同，有“谷底”有“山顶”。所以说逃离鞍点，可能让损失更低。

请添加图片描述
第三项中H是黑塞矩阵，放的是L的二次微分，公式如下：

因为在临界点时，梯度g=0，所以损失函数近似为：

可以根据第二项来判断在 $\theta$ ’ 附近的误差表面 ，从而判断L( $\theta$ ’)是局部最大值、局部最小值、或者是鞍点。
请添加图片描述

如果该值>0,则说明L( $\theta$ )>L( $\theta$ ’) ,代表L( $\theta$ ’)是附近的最低的一个点，所以它为局部极小值。
如果该值<0,则说明L( $\theta$ )<L( $\theta$ ’) ,代表L( $\theta$ ’)是附近的最高的一个点，所以它为局部极大值。
如果该值有时候大于0,有时候小于0，则说明L( $\theta$ )>L( $\theta$ ’) 或者L( $\theta$ )<L( $\theta$ ’),代表L( $\theta$ ’)既不是局部极大值，也不是局部极小值，所以为鞍点。

特征值有正有负，则原点为鞍点。

请添加图片描述
一维空间中的误差表面，有一个局部极小值。
但在二维中可能就是一个鞍点，如下图：

训练不同神经网络的结果如下图：请添加图片描述

关注