从 SGD 到 Adam —— 深度学习优化算法概览各种优化器重点

最新推荐文章于 2024-07-09 14:52:31 发布

weixin_ry5219775

最新推荐文章于 2024-07-09 14:52:31 发布

阅读量336

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kyle1314608/article/details/100589469

版权

20210701

https://blog.51cto.com/u_15064630/2571266

【机器学习基础】优化算法详解

详细

https://blog.csdn.net/u013385018/article/details/92377371

指数加权对之前的梯度进行加权越近的权重越大,越远的权重下降越快

详解深度学习中的常用优化算法(写的非常好)

https://mp.weixin.qq.com/s/Bu9GDxQQRaw74uLFPteI5w

重点

SGD没有动量的概念 SGD最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

SGD with Momentum

为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些

一阶动量是各个时刻梯度方向的指数移动平均值，约等于最近 1/(1-β1) 个时刻的梯度向量和的平均值。

也就是说，t 时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定

SGD with Nesterov Acceleration

SGD 还有一个问题是困在局部最优的沟壑里面震荡

NAG全称Nesterov Accelerated Gradient 是在SGD、SGD-M的基础上的进一步改进

不如先看看如果跟着累积动量走了一步，那个时候再怎么走然后用下一个点的梯度方向，与历史累积动量相结合

自适应学习率的优化算法

二阶动量出现

SGD及其变种以同样的学习率更新每个参数

对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些

AdaGrad

那就是二阶动量——该维度上，迄今为止所有梯度值的平方和

参数更新越频繁，二阶动量越大，学习率就越小。

因为是单调递增的，会使得学习率单调递减至0，可能会使得训练过程提前结束，即便后续还有数据也无法学到必要的知识。

AdaDelta/RMSProp

不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度

指数移动平均值大约就是过去一段时间的平均值，因此我们用这一方法来计算二阶累积动量：

就避免了二阶动量持续累积、导致训练过程提前结束的问题了。

Adam

把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum

Nadam

就是Nesterov + Adam = Nadam了

先根据一阶动量走一下,然后根据一阶动量和二阶动量以及当前的梯度共同决定下一步的走向

Radam

RAdam将“预热”作为降低方差的方法，但所需的预热程度未知，而且具体情况会根据数据集不同而变化。考虑到warmup是一种方差衰减器，但所需的warmup程度是未知的，而且数据集之间是不同的，因此，作者决定用一种数学算法来作为一种动态方差衰减器

https://zhuanlan.zhihu.com/p/79506425

立即尝鲜！碾压Adam，最好的AI优化器RAdam来了

https://zhuanlan.zhihu.com/p/342003515

优化器怎么选？一文教你选择适合不同ML项目的优化器

ä» SGD å° Adam ââ æ·±åº¦å¦ä¹ ä¼åç®æ³æ¦è§(ä¸)

可视化分析

20210116

https://zhuanlan.zhihu.com/p/343564175

https://baijiahao.baidu.com/s?id=1613121229156499765&wfr=spider&for=pc

重点

References

[1] Adam那么棒，为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法

[2] An overview of gradient descent optimization algorithms

[3] On the momentum term in gradient descent learning algorithms

[4] Adaptive Subgradient Methods for Online Learning and Stochastic Optimization

[5] CSC321 Neural Networks for Machine Learning - Lecture 6a

[6] Adam: A Method for Stochastic Optimization

[7] Incorporating Nesterov Momentum into Adam

[8] CS231n Convolutional Neural Networks for Visual Recognition

weixin_ry5219775

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_ry5219775 CSDN认证博客专家 CSDN认证企业博客

码龄7年

559: 原创

2695: 周排名

6万+: 总排名

146万+: 访问

: 等级

1万+: 积分

7万+: 粉丝

686: 获赞

143: 评论

3655: 收藏

私信

关注

热门文章

分类专栏

谷歌云盘大文件下载付费 1篇
其他 30篇

最新评论

使用余弦相似度算法计算文本相似度-数学
caloercc: 但是这样的话，如果比较的文本词汇量很大，这个算法的向量就会维度很高了。
使用余弦相似度算法计算文本相似度-数学
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
白话概念解释-总结1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
docred数据集情况笔记
陆士曦: 将test抽取出的结果按照一定格式保存为文件，提交到官网，官网会给出F1分数
Pytorch - GPU ID 指定 pytorch gpu 指定
高尔琪: curr_gpuid = torch.cuda.current_device() 输出永远是0

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。