最优化方法系列：Adam+SGD—>AMSGrad

最新推荐文章于 2024-01-24 12:40:42 发布

alppkk4545

最新推荐文章于 2024-01-24 12:40:42 发布

阅读量1.9k

点赞数

文章标签： matlab

原文链接：http://www.cnblogs.com/wishchin/p/9199825.html

版权

自动调参的Adam方法已经非常给力了，不过这主要流行于工程界，在大多数科学实验室中，模型调参依然使用了传统的SGD方法，在SGD基础上增加各类学习率的主动控制，以达到对复杂模型的精细调参，以达到刷出最高的分数。

ICLR会议的 On the convergence of Adam and Beyond 论文，对Adam算法进行了猛烈的抨击，并提出了新的Adam算法变体。

以前的文章：最优化方法之GD、SGD ；最优化之回归/拟合方法总结；最优化方法之SGD、Adams；

参考文章：GD优化算法总结--，可见每一步公式的更新都来之不易。

整个优化系列文章列表：Deep Learning 之最优化方法；Deep Learning 最优化方法之SGD；Deep Learning 最优化方法之Momentum（动量）；Deep Learning 最优化方法之Nesterov(牛顿动量)；Deep Learning 最优化方法之AdaGrad；Deep Learning 最优化方法之RMSProp；Deep Learning 最优化方法之Adam；

Adams算法

先上结论：

   1.Adam算法可以看做是修正后的Momentum+RMSProp算法

   2.动量直接并入梯度一阶矩估计中（指数加权）

     3.Adam通常被认为对超参数的选择相当鲁棒

     4.学习率建议为0.001

再看算法：其实就是Momentum+RMSProp的结合，然后再修正其偏差。

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
最优化方法系列：Adam+SGD—>AMSGrad

自动调参的Adam方法已经非常给力了，不过这主要流行于工程界，在大多数科学实验室中，模型调参依然使用了传统的SGD方法，在SGD基础上增加各类学习率的主动控制，以达到对复杂模型的精细调参，以达到刷出最高的分数。 ICLR会议的 On the convergence of Adam and Beyond 论文，对Adam算法...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。