参数的更新方法
- SGD
设定固定的学习率,通过与梯度的乘积进行参数更新
公式如下
W W W <= W − η ∂ L ∂ W W-\eta\frac{\partial L}{\partial W} W−η∂W∂L
- Momentum
一般称为“动量”,设定一个参数学习率,相比SGD多了一个变量“v”
v v v <= a v − η ∂ L ∂ W av-\eta\frac{\partial L}{\partial W} av−η∂W∂L
W W W <= W + v W+v W+v
-
AdaGrad
学习率衰减
公式如下h h h <= h + ∂ L ∂ W ⊙ ∂ L ∂ W h+\frac{\partial L}{\partial W}\odot\frac{\partial L}{\partial W} h+∂W∂L⊙∂W∂L
W W W <= W − η 1 h ∂ L ∂ W W-\eta\frac1{\sqrt h}\frac{\partial L}{\partial W} W−ηh1∂W∂L
- Adam
将“动量”与“AdaGrad”结合得到的方法
以上四种参数更新方法各有特点,需根据情况使用