随机梯度 SGD,一次训练一个样本,不稳定,可能不收敛到全局最优。
mini batch,一次训练一组样本,上下波动厉害。计算量少。
全部样本,计算量太大,收敛快,全局最优。
一般是mini batch。
基本的,按梯度更新。
动量(滑动平均),很像股市里的MACD。v^n = K* v^n-1 + (1-K)v^n。 如果本次方向与之前不一致时,可以向回拉一下,这样就不会来回抖动
RMSProp , 除了一个系数,g点乘g,可以保证Y的方向步子小一点,x方向步子大一点 .
Adam,RMSProp和动量的结合。既除系数,又滑动平均。