1. lookhead 传统的优化器是L(sita) lookhead优化器是使用f(x)将sita进行包装,然后进行k次迭代,最后求l(sita)损失函数的值最小,当k等于1时,和传统的求梯度是一样的, 但是在进行进行k 迭代时,效果会比传统的更快更好。 2. radam