优化算子adam——为什么说adam融合了momentum和RMSprop(均方根传播)的优点
准备知识(可选择跳过)
momentum
参数初始化:m:momentum 系数;lr:learning rate 学习率;权重w
计算梯度和更新数度:g(t);v(t) = m*v(t-1)+lr*g(t)
更新参数:w(t) = w(t-1) - v(t)
备注:优点是学习速度快。避免sgd算法梯度更新幅度摆动大的问题。缺点是依赖全局的学习率。
adagrade和RMSpr...
原创
2020-04-30 23:04:03 ·
1021 阅读 ·
0 评论