优化框架
https://zhuanlan.zhihu.com/p/32230623
1、计算关于当前参数的梯度
2、计算历史梯度的一阶动量和二阶动量
3、计算当前时刻下降梯度
4、更新下一个参数,用当前参数减去第三步计算的值。
sgd方法下降梯度直接就是用的第1步的结果。
但是如果学习率大,一步会迈的太远,容易震荡
https://blog.csdn.net/tsyccnh/article/details/76270707
动量法momentum改进了,加入了动量
当前时刻的下降量累加了之前的下降量
加速相关方向的更新