【机器学习】优化器之Adam

最新推荐文章于 2024-04-29 11:18:46 发布

BlackMan_阿伟

最新推荐文章于 2024-04-29 11:18:46 发布

阅读量7.2k

点赞数 2

分类专栏：机器学习算法深度学习文章标签：算法机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37724529/article/details/117400048

版权

上一个章节说了SGD和动量版本的SGD，这个优化算法目前也是比较常用的一个优化算法，但是它还是存在一些问题的，因此后面又出了几个不同的算法，比如AdaGrad、RMSProp、Adam等算法。

1、SGD存在的问题

使用相同的学习率对每个参数更新。需要选择足够小的学习率使得自变量在梯度较大的维度上不发散。这样会导致自变量在梯度较小的维度上迭代太慢了。动量法是为了让自变量的更新方向更加一致，从而降低发散可能。

2、AdaGrad

因为SGD存在不同的参数使用同一个学习率会造成一些问题，有的参数已经更新到最优值，另外一些参数还没有更新到最优值，这样在一次更新会造成之前已经更新到最优值的参数不稳定，因此在AdaGrad这个算法里就想给每个参数都以不同的学习率进行更新，在每个维度的梯度值来调整各个维度上的学习率。

核心思想：利用了梯度的累计平方值，如果历史梯度频繁更新，那么一开始梯度会急剧减小，更新非常快。如果有些参数的更新比较慢，那么学习率比较大，更新的较快。

$g_{t}$ 表示第t时间步的梯度， $g_{t}^{2}$ 表示第t时间步的梯度平

最低0.47元/天解锁文章

BlackMan_阿伟

关注

2
点赞
踩
57

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】优化器之Adam

上一个章节说了SGD和动量版本的SGD，这个优化算法目前也是比较常用的一个优化算法，但是它还是存在一些问题的，因此后面又出了几个不同的算法，比如AdaGrad、RMSProp、Adam等算法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。