神经网络最终是一个 最优化问题 , 在经过 前向计算和反向传播 后, Optimizer 使用反向传播梯度,优化神经网络中的参数。
1.SGD/SGDOptimizer
SGD 是实现 随机梯度下降 的一个 Optimizer 子类,是 梯度下降 大类中的一种方法。 当需要训练大量样本的时候,往往选择 SGD 来使损失函数更快的收敛。
2.Momentum/MomentumOptimizer
Momentum 优化器在 SGD 基础上引入动量,减少了随机梯度下降过程中存在的噪声问题。 用户在使用时可以将 ues_nesterov 参数设置为False或True,分别对应传统 Momentum(论文4.1节) 算法和 Nesterov accelerated gradient(论文4.2节) 算法。