- 随机梯度下降——SGD(Stochastic Gradient Descen)
每次从训练样本中随机抽取一个样本计算loss和梯度并对参数进行更新,由于每次不需要遍历所有的数据,所以迭代速度快,但是这种算法比较弱,往往容易走偏。
与随机梯度下降相对应的还有批量梯度下降BGD,每次用整个训练集计算梯度,比较稳定,就是速度非常慢
小批量梯度下降(Mini-Batch Gradient Descent),每次抽取m个样本
2.Momentum 动量
动量的方法在随机梯度下降的基础上,加上了上一步的梯度
3.加速梯度算法 NAG
nesterov加速梯度与动量类似,也是考虑最近的梯度情况,但是NAG相对超前一点,它先使用动量m计算参数u的下一个位置的近似值,然后在近似位置上计算梯度