疑问来源:
比赛实践中,往往都是先用Adam实现快速收敛后,再使用SGD达到最优解,为什么Adam无法直接达到最优解呢?
强烈推荐:
ICLR 2018 的一篇论文认为是因为使用了指数滑动平均:
< On the Convergence of Adam and Beyond >
原文链接:http://www.sanjivk.com/AdamConvergence_ICLR.pdf
现在的最佳做法:
1. 最新版本Keras的Adam实现中已经支持了amsgrad算法
keras.optimizers.Adam(lr=0.0012, beta_1=0.9, beta_2=0.9, epsilon=1e-08, amsgrad=True)
2. 依然使用Adam+SGD(with momentum)的方法