深度学习基础笔记

最新推荐文章于 2024-09-26 17:20:50 发布

Jay_Ruan

最新推荐文章于 2024-09-26 17:20:50 发布

阅读量229

点赞数 6

文章标签：深度学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jay_Ruan/article/details/141615122

版权

1. 局部极小值与鞍点

1.1 优化失败的原因

在优化过程中，有时会遇到损失不再下降的情况，但结果仍不理想。这可能是由于模型收敛到局部极小值或鞍点，导致梯度下降无法继续更新参数。

1.2 临界点及其种类

局部极小值：梯度为零，且在该点附近的所有方向上，损失函数值都比此点的值大。
鞍点：梯度为零，但在某些方向上，损失函数值低于该点，而在其他方向上，损失函数值高于该点。鞍点的形状类似马鞍。
临界点：梯度为零的点，包括局部极小值、局部极大值和鞍点。

1.3 判断临界点种类的方法

海森矩阵（Hessian Matrix）：用于判断临界点是局部极小值、局部极大值还是鞍点。海森矩阵包含损失函数的二次导数。
- 若海森矩阵的所有特征值都为正，临界点是局部极小值。
- 若所有特征值都为负，临界点是局部极大值。
- 若特征值有正有负，临界点是鞍点。

1.4 逃离鞍点的方法

尽管海森矩阵可以帮助判断鞍点并指出参数更新的方向，但计算海森矩阵及其特征值非常耗费计算资源，实际应用中很少采用。
其他逃离鞍点的方法通常计算量较小，实践中更多被使用。

2. 鞍点与局部极小值的关系

鞍点虽然可能让损失不再下降，但并不可怕，因为在高维空间中，局部极小值往往很少见。
高维空间中有更多的方向可以选择，因此，即便在低维空间中看似是局部极小值，在高维空间中可能只是鞍点。

3. 实验结果

实验表明，在神经网络训练过程中，真正的局部极小值并不常见，更多的是遇到鞍点。
大部分情况下，特征值呈现正负各半的情况，即在某些方向上损失增加，而在另一些方向上损失减小，这表明多数临界点是鞍点而非局部极小值。

4. 结论

在深度学习的优化过程中，理解鞍点的性质有助于更好地理解损失函数的行为，并采取有效的措施优化神经网络。

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。