SGD、momentum、Adgrad、Adam
1.SGD
GD:使用所有的预测值来计算损失函数的导数
SGD:只使用当前值计算损失函数导数,用来规划下降的方向
2.momentum
参数更新时,不直接使用梯度负方向:
使用之前的梯度来规划当前的梯度:
3.Adagrad
加入了自适应学习率,来规划步长:
4.Adam
使用一阶动量来更新方向,二阶动量来更新步长:
GD:使用所有的预测值来计算损失函数的导数
SGD:只使用当前值计算损失函数导数,用来规划下降的方向
参数更新时,不直接使用梯度负方向:
使用之前的梯度来规划当前的梯度:
加入了自适应学习率,来规划步长:
使用一阶动量来更新方向,二阶动量来更新步长: