Datawhale X 李宏毅苹果书AI夏令营学习笔记第一部分

最新推荐文章于 2024-08-27 23:46:37 发布

shdjmouyu

最新推荐文章于 2024-08-27 23:46:37 发布

阅读量119

点赞数 1

文章标签：学习笔记机器学习

本文链接：https://blog.csdn.net/shdjmouyu/article/details/141614684

版权

这次从第三章直接开始学习，局部极小值是指在目标函数的某些区域内，该点的函数值比邻近的点都要小，从而在梯度下降等优化算法中可能被误认为是全局最小值。而鞍点则更为复杂，它在某一方向上可能是极小值，而在另一个方向上却是极大值，导致优化过程可能在这里停滞不前

局部极小值和鞍点

局部极小值和鞍点可以视为梯度为0的点（即临界点），判断临界值种类的办法主要通过泰勒级数近似、海森矩阵的特征值分析，以及梯度的计算来实现。这些方法共同帮助理解损失函数在某一点附近的行为，从而区分局部极小值和鞍点。

要判断一个临界点是局部极小值还是鞍点，首先需要了解该点附近损失函数的形态。这可以通过泰勒级数近似来实现。在θ'附近的损失函数L(θ)可以近似表示为 L(θ) ≈ L(θ') + (θ - θ')ᵀg + 1/2 (θ - θ')ᵀH (θ - θ')。这里，g代表梯度向量，H代表海森矩阵。

在临界点处，梯度g为零，因此近似公式简化为 L(θ) ≈ L(θ') + 1/2 (θ - θ')ᵀH (θ - θ')。通过这个近似式，可以分析误差表面的形状。如果对所有可能的向量v（即θ - θ'），二次型vᵀHv都是正的，那么该临界点是局部极小值；如果都是负的，则为局部极大值；如果有正有负，则是鞍点。

进一步的分析是通过海森矩阵H的特征值来进行的。如果H的所有特征值都是正数，则该临界点是局部极小值；如果都是负数，则是局部极大值；如果特征值有正有负，那么该点就是鞍点。

逃离鞍点的方法主要包括使用随机梯度下降、添加动量项、使用自适应学习率的优化方法以及引入随机扰动等策略

批量和动量

批量就是在各种机器学习训练过程中常见的batch，批量大小主要影响梯度的估计和更新的稳定性。较大的批量能够提供更准确的梯度估计，因为包含了更多的样本信息，从而使得梯度更加稳定，训练过程也更平滑。但这会延长每次迭代的时间并增加内存消耗。相比之下，较小的批量能够带来更频繁的参数更新，引入随机噪声，有助于避免局部最小值，但可能导致训练过程震荡（即损失值和准确度无法稳定）。

动量法通过在更新步骤中引入一个系数（通常称为动量系数），将上一次的更新向量的一部分添加到当前更新向量中。这种方法模拟了物理中的动量概念，能够帮助优化算法在遇到鞍点或局部极小值时更容易跳出。

shdjmouyu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书AI夏令营学习笔记第一部分

这次从第三章直接开始学习，局部极小值是指在目标函数的某些区域内，该点的函数值比邻近的点都要小，从而在梯度下降等优化算法中可能被误认为是全局最小值。而鞍点则更为复杂，它在某一方向上可能是极小值，而在另一个方向上却是极大值，导致优化过程可能在这里停滞不前。
复制链接

扫一扫