1. SGD
现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。
其中是模型参数,是模型目标函数,是目标函数的梯度,是学习率。
难点(缺点):
(1)学习率的选择。过低收敛缓慢,过高无法收敛。
(2)“之字形”的出现,即在陡谷(一种在一个方向的弯曲程度远大于其他方向的表面弯曲情况)处震荡。如下图所示
2. 动量法(Momentum)
1. SGD
现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。
其中是模型参数,是模型目标函数,是目标函数的梯度,是学习率。
难点(缺点):
(1)学习率的选择。过低收敛缓慢,过高无法收敛。
(2)“之字形”的出现,即在陡谷(一种在一个方向的弯曲程度远大于其他方向的表面弯曲情况)处震荡。如下图所示
2. 动量法(Momentum)