李宏毅老师机器学习RMSProp中关于learning rate的解释与思考

最新推荐文章于 2023-04-15 14:42:36 发布

糖豆豆今天也要努力鸭

最新推荐文章于 2023-04-15 14:42:36 发布

阅读量497

点赞数

分类专栏：机器学习文章标签：机器学习 adagrad算法 adaptive gradient

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40349484/article/details/109696950

版权

机器学习专栏收录该内容

37 篇文章 3 订阅

订阅专栏

当前ppt — 当前PPT

就是这张PPT让我非常疑惑，因为上一张PPT讲的是“平坦的地方learning rate越大，陡峭的地方learning rate越小”，怎么换了下一张就变了？

绿色箭头的区域明显比红色的要平坦，learning rate应该大啊，为什么ppt上写的是小呢？

上一张PPT

解释：上一张PPT有多个参数（2个），是站在Adagrad的角度看learning rate的，learning rate的larger/smaller是跨参数的结果，

但当前PPT只考虑了一个参数（一个方向），平坦意味着离收敛已经很近了，所以需要小的learning rate。

为什么说Adagrad的learning rate是一个跨参数的结果呢？原因如下：

Adagrad公式如下：

当只有一个参数w的时候，梯度越大，就说明离收敛越远，那么就需要大的step以便尽快达到收敛。

但是一个network中往往有很多参数，那么在同时考虑多个参数的时候，某个参数w的梯度越大，却不意味着这一步的step（与learning rate正相关）也要越大。如下图PPT所示，注意黑色箭头指向的点，只考虑单个参数的话：

c点梯度大，所以需要较大的learning rate；a点梯度小，所以需要较小的learning rate。

而考虑到（a,c）这个跨参数点时，就恰恰相反了，由于c点离收敛点近，所以需要较小的learning rate；a点离收敛点远，所以需要较大的learning rate。

Adagrad的存在就解决了这个问题，分母处的开根号模拟的是二次微分。c的一次微分大，二次微分也大，所以梯度大的c点learning rate变得smaller；a的一次微分小，二次微分也小，所以梯度小的a点learning rate变得larger。这就与事实靠近了。

所以说Adagrad是考虑到跨参数的结果，表述了更接近事实的当前点与收敛点的距离（加入二次微分）。所谓的larger/smaller的比较对象是跨参数的learning rate与单参数的learning rate。

一句话总结：learning rate的大小取决于离收敛点是否近，而不取决于是否平坦。有的地方虽然陡峭但是接近收敛了，learning rate就应该是小的。下面的PPT也可以印证这句话的正确性。

糖豆豆今天也要努力鸭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。