逐参数自适应学习率

最新推荐文章于 2024-07-26 02:12:25 发布

lanmengyiyu

最新推荐文章于 2024-07-26 02:12:25 发布

阅读量993

点赞数

分类专栏：深度学习相关（cs231n）文章标签：学习率神经网络深度学习自适应逐参数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lanmengyiyu/article/details/79344445

版权

深度学习相关（cs231n）专栏收录该内容

49 篇文章 6 订阅

订阅专栏

前面博客中提到的一阶参数更新方法，对于每个参数的学习率都相同，因此相关研究人员开始考虑，是否可以自适应的设定学习率。目前，常用的方法有以下三种：

Adagrad

Adagrad方法总的来说是梯度大的方向的学习率比梯度小的方向的学习率要小，如果用公式来表示：

cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

其中，eps是为了防止分母为0，一般可以取1e-4到1e-8之间。

但是，Adagrad存在着过早停止学习的问题，这主要是由于cache不断累积，如果在某一个位置不能继续更新时，在以后的时刻也不会再更新。

RMSprop

这个算法可以认为是Adagrad算法过早停止学习的改进，主要是将cache做了修改，令下一时刻的cache只继承一部分的上一时刻的cache，比如0.9或0.99，这样就不会令学习率单调下降，用公式表示如下：

cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

该公式在平时的应用中非常高效

Adam

Adam算法是最近提出的算法，通常情况下可以作为默认的逐参数自适应学习率方法。其公式可以表示如下：

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

它与RMSprop的不同在于用m代替了dx，m也是dx的某种程度的积累。Adam更新算法还包含了一个偏置矫正机制，主要是因为m,v在初始化时为0，这样会造成学习率在没有完全热身之前存在偏差，因此需要采取一些补偿措施。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。