常见的深度学习优化器

青灯剑客

已于 2022-02-07 23:36:00 修改

阅读量1.1k

点赞数

分类专栏：算法文章标签： python 人工智能机器学习自然语言处理深度学习

于 2022-01-29 20:58:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42425256/article/details/122747644

版权

算法专栏收录该内容

28 篇文章 0 订阅

订阅专栏

一直用优化器解决问题，但是没有对它进行一个系统的总结。。不对，系统的总结进行过，只是时过境迁，早已忘却。

一、照进我脑海的几个家伙

一开始学习的当然是SGD，只是学着学着就忘记了。后来呢，接触到网上介绍的几种常用的优化器，看着原理挺给力，可是记了好几次都记不住。直到遇到《百面机器学习》，它从最基本的原理出发，给了我一点灵感。
（1）几种常用的优化器，详情见这里链接34
（2）

二、以为自己遇见了大海

老师说，Adam就能当拖拉机刨地用，也能当赛车比骚用。

三、新世纪的先锋们

预训练模型出现后，AdamW也逐渐声明在外，据说还有一种Amsgrad，详见链接31、链接32、链接34和bertAdam，详见链接33
（1）随便说一下，Adam也是有学习衰减率的。当学习率取得较大一点时，添加上学习衰减率，可以取得更好一点的效果。详情见链接35，注意区分这里的学习衰减率与AdamW中学习衰减率的区别。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见的深度学习优化器

一直用优化器解决问题，但是没有对它进行一个系统的总结。。不对，系统的总结进行过，只是时过境迁，早已忘却。一、照进我脑海的几个家伙二、以为自己遇见了大海三、新世纪的先锋们...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。