Datawhale X 李宏毅苹果书 AI夏令营深度学习进阶方向 Task01学习笔记

他们都说有手就行

已于 2024-08-27 23:29:20 修改

阅读量105

点赞数 2

文章标签：人工智能机器学习学习

于 2024-08-27 23:27:54 首次发布

本文链接：https://blog.csdn.net/m0_74485136/article/details/141614944

版权

学习李宏毅苹果书总结：

第 3 章深度学习基础

局部极小值与鞍点
- 深度学习在优化过程中，常因参数更新而收敛至局部极小值或鞍点，导致训练损失不再降低。
- 临界点是导致梯度下降停止的点，可能是局部极小值或鞍点。鞍点在某些方向上可能允许进一步减少损失，而局部极小值则不行。
判断临界点的方法
- 通过泰勒级数近似和海森矩阵（二次微分矩阵），可以判断一个点是局部极小值、局部极大值还是鞍点。
- 海森矩阵的特征值可以用来确定临界点的性质：全正则是局部极小值，全负则是局部极大值，正负混合则是鞍点。
批量和动量
- 批量大小对梯度下降的效果有显著影响。较小的批量可以增加梯度的噪声，有助于逃离局部最小值。
- 动量法借鉴物理中的惯性概念，通过累积过去梯度的影响来调整更新方向，有助于跨过局部最小值。
自适应学习率
- 自适应学习率可以根据训练过程中的需求动态调整，帮助模型更有效地学习，特别是在复杂的误差表面上。
- 一些优化算法（如Adam）自动调整每个参数的学习率，根据参数的历史梯度量来调整步长。

后面重温复习建议：

理解鞍点和局部极小值的区别对优化算法的选择和调整至关重要。
动态调整学习率和使用动量法可以显著改善模型在复杂误差表面上的表现。
在实际应用中，选择合适的批量大小对于模型训练的效率和效果有直接影响。

书中图片理解：

图 3.5 误差表面

说明了不同维度对误差表面的影响。在一维空间中，局部极小值明显，但在更高维度，这些局部极小值可能仅是鞍点。

图 3.6 神经网络训练的结果

展示了损失值在达到临界点时的分布，表明大部分临界点都是鞍点而不是真正的局部极小值

图 3.7 使用批量优化

讨论了批量大小对梯度计算的影响，表明较小的批量可以增加更新方向的随机性，有助于避免陷入局部最小值。

图 3.8 批量梯度下降与随机梯度下降

对比了全批量和随机梯度下降的优缺点，指出随机梯度下降由于更新噪声较大，更有可能跳出局部最小值。

图 3.10 并行计算中批量大小与计算时间的关系

分析了批量大小对计算效率的影响，指出较大的批量在并行计算中效率更高。

图 3.11 图像识别准确率与批量大小的关系

揭示了批量大小增加时，训练和验证准确率通常会下降，表明大批量可能在优化过程中存在困难。

图 3.16 和图 3.17 动量法

描述了动量法在优化中的作用，通过前一步的方向和当前梯度的组合，有助于跨过局部极值或鞍点。

图 3.18 和图 3.19 自适应学习率

讨论了自适应学习率的优势，可以根据损失的变化动态调整学习率，以改善训练过程中的收敛速度和稳定性。

他们都说有手就行

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营深度学习进阶方向 Task01学习笔记

说明了不同维度对误差表面的影响。在一维空间中，局部极小值明显，但在更高维度，这些局部极小值可能仅是鞍点。讨论了批量大小对梯度计算的影响，表明较小的批量可以增加更新方向的随机性，有助于避免陷入局部最小值。讨论了自适应学习率的优势，可以根据损失的变化动态调整学习率，以改善训练过程中的收敛速度和稳定性。描述了动量法在优化中的作用，通过前一步的方向和当前梯度的组合，有助于跨过局部极值或鞍点。分析了批量大小对计算效率的影响，指出较大的批量在并行计算中效率更高。
复制链接

扫一扫

Datawhale X 李宏毅苹果书 AI夏令营 深度学习进阶方向 Task01学习笔记

学习李宏毅苹果书总结：

第 3 章 深度学习基础

局部极小值与鞍点

判断临界点的方法

批量和动量

自适应学习率