Datawhale X 李宏毅苹果书AI夏令营 学习笔记第一部分

这次从第三章直接开始学习,局部极小值是指在目标函数的某些区域内,该点的函数值比邻近的点都要小,从而在梯度下降等优化算法中可能被误认为是全局最小值。而鞍点则更为复杂,它在某一方向上可能是极小值,而在另一个方向上却是极大值,导致优化过程可能在这里停滞不前

局部极小值和鞍点

局部极小值和鞍点可以视为梯度为0的点(即临界点),判断临界值种类的办法主要通过泰勒级数近似、海森矩阵的特征值分析,以及梯度的计算来实现。这些方法共同帮助理解损失函数在某一点附近的行为,从而区分局部极小值和鞍点

要判断一个临界点是局部极小值还是鞍点,首先需要了解该点附近损失函数的形态。这可以通过泰勒级数近似来实现。在θ'附近的损失函数L(θ)可以近似表示为 L(θ) ≈ L(θ') + (θ - θ')ᵀg + 1/2 (θ - θ')ᵀH (θ - θ')。这里,g代表梯度向量,H代表海森矩阵。

在临界点处,梯度g为零,因此近似公式简化为 L(θ) ≈ L(θ') + 1/2 (θ - θ')ᵀH (θ - θ')。通过这个近似式,可以分析误差表面的形状。如果对所有可能的向量v(即θ - θ'),二次型vᵀHv都是正的,那么该临界点是局部极小值;如果都是负的,则为局部极大值;如果有正有负,则是鞍点。

进一步的分析是通过海森矩阵H的特征值来进行的。如果H的所有特征值都是正数,则该临界点是局部极小值;如果都是负数,则是局部极大值;如果特征值有正有负,那么该点就是鞍点。

逃离鞍点的方法主要包括使用随机梯度下降、添加动量项、使用自适应学习率的优化方法以及引入随机扰动等策略

批量和动量

批量就是在各种机器学习训练过程中常见的batch,批量大小主要影响梯度的估计和更新的稳定性。较大的批量能够提供更准确的梯度估计,因为包含了更多的样本信息,从而使得梯度更加稳定,训练过程也更平滑。但这会延长每次迭代的时间并增加内存消耗。相比之下,较小的批量能够带来更频繁的参数更新,引入随机噪声,有助于避免局部最小值,但可能导致训练过程震荡(即损失值和准确度无法稳定)。

动量法通过在更新步骤中引入一个系数(通常称为动量系数),将上一次的更新向量的一部分添加到当前更新向量中。这种方法模拟了物理中的动量概念,能够帮助优化算法在遇到鞍点或局部极小值时更容易跳出。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值