参考:深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
学习率 | 方法 | 缺点 | 优点 | 经验 |
手动设置学习率 | SGD(mini-batch gradient descent) | 选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征,有时我们可能想更新快一些对于不经常出现的特征,对于常出现的特征更新慢一些,这时候SGD就不太能满足要求了 | 初始化和学习率设置比较合适的情况下,结果更可靠 |