adam、adagrad、RMSProp、sgd学习记录

qq_30362711

于 2020-09-16 14:29:08 发布

阅读量120

点赞数

分类专栏：优化与求解文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30362711/article/details/108621323

版权

优化与求解专栏收录该内容

4 篇文章 0 订阅

订阅专栏

SGD

太简单了，不说了

AdaGrad

https://zh.d2l.ai/chapter_optimization/adagrad.html

存在的问题：

需要强调的是，小批量随机梯度按元素平方的累加变量 st 出现在学习率的分母项中。因此，如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。然而，由于 st 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。所以，当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。

评价

我的疑问是这样的，在更新权重的时候，梯度的计算出来的值是根据你这一次对最终值得影响来得到得，因此W1和W2两个不同得权重虽然学习率一样，但是在求导时是会根据函数曲线得到不同得梯度，因此是否有必要再加上一个非常不鲁棒得调整学习率得额外操作？？？
感觉很傻得方法。

评价分析

我脑补了下3维空间得情况，比如x和y是变量，对z求偏导，x陡坡，y缓坡，那么x肯定得到得导数大，y得到得导数小，但是这没问题啊，因为x陡坡得话大概率会离极值远啊。所以同样得学习率，x走得多，y走得少没毛病啊，为什么你又要加入干扰？？？

RMSProp

https://zh.d2l.ai/chapter_optimization/rmsprop.html

在这里插入图片描述

评价

评价同上。此算法的改进是对更新s加上了一个衰减。修改后s肯定小于改之前。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
adam、adagrad、RMSProp、sgd学习记录

SGD太简单了，不说了AdaGradhttps://zh.d2l.ai/chapter_optimization/adagrad.html存在的问题：需要强调的是，小批量随机梯度按元素平方的累加变量 st 出现在学习率的分母项中。因此，如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。然而，由于 st 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。