本文是LLM系列文章,针对《Adam-mini: Use Fewer Learning Rates To Gain More》的翻译。 Adam-mini:使用更少的学习率来获得更多 摘要 1 引言 2 方法 3 实验 4 相关工作 5 结束语 摘要 我们提出了Adam mini,这是一种优化器,其性能与AdamW相当或更好,内存占用减少了45%至50%。Adam mini通过减少Adam中的学习率资源(即 1 / v 1/\sqrt v 1/