更好的优化算法: https://blog.csdn.net/wildridder/article/details/88571007
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam: https://zhuanlan.zhihu.com/p/32230623
深度学习优化函数详解(5)-- Nesterov accelerated gradient (NAG): https://blog.csdn.net/tsyccnh/article/details/76673073
训练神经网络: https://www.it610.com/article/1282956489979346944.htm
深度学习优化算法经历了 BGD -> SGD -> MBGD -> SGDM -> NAG ->AdaGrad -> AdaDelta/RMSprop -> Adam -> AdaMax -> Nadam 这样的发展历程,本文简单来梳理这些优化算法是如何一步一步演变而来的。: https://zhuanlan.zhihu.com/p/32488889