SGD:梯度下降方法优化,手动设置学习率,学习率不会自动变化,只能手动更改。 AdaGrad:学习率自学习,学习率随着训练过程改变,调整学习过程。 AdaGrad RMSProp:在AdaGrad的基础上,改进学习率调整的方法,加了一个衰减系数来控制历史信息的获取量。 RMSProp