常见优化算法 (caffe和tensorflow对应参数)
常见优化算法 (caffe和tensorflow对应参数)算法可视化常见算法SGDx+= -learning_rate*dxMomentumMomentum可以使SGD不至于陷入局部鞍点震荡,同时起到一定加速作用。 Momentum最开始有可能会偏离较远(overshooting the target),但是通常会慢慢矫正回来。v = mu*v - learning_rate*dxx+= vNe
原创
2016-12-05 02:25:37 ·
20313 阅读 ·
0 评论