一直用优化器解决问题,但是没有对它进行一个系统的总结。。不对,系统的总结进行过,只是时过境迁,早已忘却。
一、照进我脑海的几个家伙
一开始学习的当然是SGD,只是学着学着就忘记了。后来呢,接触到网上介绍的几种常用的优化器,看着原理挺给力,可是记了好几次都记不住。直到遇到《百面机器学习》,它从最基本的原理出发,给了我一点灵感。
(1)几种常用的优化器,详情见这里链接34
(2)
二、以为自己遇见了大海
老师说,Adam就能当拖拉机刨地用,也能当赛车比骚用。
三、新世纪的先锋们
预训练模型出现后,AdamW也逐渐声明在外,据说还有一种Amsgrad,详见链接31、链接32、链接34和bertAdam,详见链接33
(1)随便说一下,Adam也是有学习衰减率的。当学习率取得较大一点时,添加上学习衰减率,可以取得更好一点的效果。详情见链接35,注意区分这里的学习衰减率与AdamW中学习衰减率的区别。