清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文
https://github.com/THUNLP-MT/MT-Reading-List
本文提到的Adam是一种基于一阶梯度的随机优化算法,具体操作如下:
改进:AdaMAX
将vt的更新公式进行了修改,在 Adam 中,单个权重的更新规则是将其梯度与当前和过去梯度的 L^2 范数(标量)成反比例缩放。而我们可以将基于 L^2 范数的更新规则泛化到基于 L^p 范数的更新规则中。虽然这样的变体会因为 p 的值较大而在数值上变得不稳定,但是在特例中,我们令 p → ∞会得出一个极其稳定和简单的算法。
可以参考的博客:
https://www.jianshu.com/p/aebcaf8af76e
一个简要的分析+翻译