SGD with momentum有两种写法 效果等价Adam中的bias correction项的存在是出于以下考虑:first_momentum以及second_momentum都初始化为0,为了仅在开始的几次迭代中增大他们的影响,增加了一个参数为t的correction,值得注意的是,t的值随时间增大,也就是说放大效果越来越弱。