机器学习算法岗面经 | 优化方法总结对比:SGD、Momentum、AdaGrad、RMSProp、Adam
A. Stochastic Gradient Descent 随机梯度下降随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行跟新。θ=θ−α▽θJ(θ)\theta = \theta - \alpha\bigtriangledown_{\theta}J(\theta)θ=θ−α▽θJ(θ)Batchsize是算法设计中需要调节的参数,较小的值让学习过程收敛更快,但是产生更多噪声;较大的值让学习过程收敛较慢,但是可以更准确的估计误差梯度的方向。B. Momentum 动量梯
原创
2020-08-20 14:46:25 ·
1109 阅读 ·
0 评论