《深度学习详解》笔记记录-Task1

最新推荐文章于 2024-10-04 22:36:54 发布

haohaocodeli

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量306

点赞数 4

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/m0_72910220/article/details/141615189

版权

局部最小值：在该点的梯度为零，且该点周围的损失值都比这一点高。
鞍点：梯度也为零，但与局部最小值不同，鞍点在某些方向上损失可以更低，而在其他方向上损失可能更高。
临界点：梯度为零的点，包括局部最小值、局部最大值和鞍点。
判断方法：通过泰勒级数近似和海森矩阵（Hessian matrix）来判断临界点的类型。
- 如果海森矩阵是正定的，那么临界点是局部最小值。
- 如果海森矩阵是负定的，那么临界点是局部最大值。
- 如果海森矩阵的特征值有正有负，那么临界点是鞍点。

批量大小：在计算梯度时，将数据分成不同大小的批量，批量大小影响梯度下降法的稳定性和效率。
- 全批量梯度下降（BGD）：使用所有数据计算梯度，每次更新稳定但计算量大。
- 随机梯度下降（SGD）：每次使用一个数据点计算梯度，更新频繁但方向嘈杂。
批量梯度下降的影响：
- 大批量可能导致训练过程稳定但可能陷入“峡谷”中的局部最小值。
- 小批量可能导致更新方向嘈杂，有助于跳出局部最小值，但训练时间较长。
动量法：模拟物理中的惯性，通过历史梯度的加权和来更新参数，有助于跳出鞍点和局部最小值。
- 动量更新公式：mt=λmt−1−η∇θJ(θt−1)mt=λmt−1−η∇θJ(θt−1) 其中，mtmt是当前步的动量，λλ是动量参数，ηη是学习率，∇θJ(θt−1)∇θJ(θt−1)是当前步的梯度。