“微信公众号” 本文文章同步更新在我的知乎专栏里面: 深度学习优化方法-AdaGrad - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/38298197 梯度下降算法、随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD)、动量法(momentum)、Nesterov动量法有一个共同的特点是:对于每一个参数都用相同的学习率进行更新。 但是在实际应用中,各个参数的重要性肯定是不一样的,所以我们对于不同的参数要动态的采取不同的学习率,让目标函数更快的收敛。