参考博客: 为什么说随机最速下降法(SGD)是一个很好的方法? Deep Learning 最优化方法之Momentum(动量) 优化器(Optimizer)介绍 系统学习Pytorch笔记七:优化器和学习率调整策略 pytorch优化器学习率调整策略以及正确用法 Pytorch使用ReduceLROnPlateau来更新学习率 分类模型参数调整的Github参考代码 特别好的一篇关于Batch_size对模型影响的博客