深度学习_深度学习基础知识_RAdam详解

最新推荐文章于 2025-01-21 17:31:13 发布

Rocky Ding*

最新推荐文章于 2025-01-21 17:31:13 发布

阅读量2.5k

点赞数 1

分类专栏： # 深度学习基础知识文章标签：深度学习机器学习神经网络优化器 RAdam

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rocky6688/article/details/107935880

版权

深度学习基础知识专栏收录该内容

30 篇文章

订阅专栏

SGD收敛较好，但是需要耗费很多时间。

Adam收敛快，但是容易陷入局部解中。

Adam的核心思想是用指数滑动平均去估计梯度每个分量的一阶矩（动量）和二阶矩（自适应学习率），并用二阶矩去normalize一阶矩，得到每一步的更新量：

在这里插入图片描述

其中， $m_{t}$ 是一阶矩（动量）， $v_{t}$ 是二阶矩（自适应学习率）， $\eta$ 是学习率， $c_{t}$ 是偏差修正项（bias correction）， $\epsilon$ 防止除零错误以及控制更新量的最大scale， $\Delta\theta$ 是参数更新量， $\beta_{1}$ 和 $\beta_{2}$ 是指数滑动平均的超参，越小说明倾向于局部平均。

RAdam指出在训练初期Adam中 $v_{t}$ 的方差会非常大，而 $v_{t}$ 起到修正更新方向的作用，因此Adam参数的更新量的方差也会非常大。

Radam使用预热（warmup）的方法来解决Adam容易收敛到局部最优解的问题，作者前期选用比较稳的SGD + Momentum来进行训练，来稳定缩小方差。

下面是RAdam的算法流程：

在这里插入图片描述
和Adam一样，使用的是滑动平均的方法。而在训练初期的时候，切换到SGD + Momentum进行预热。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Rocky Ding* 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。