【深度学习】梯度下降优化方法

最新推荐文章于 2024-08-20 15:10:09 发布

csdn_black

最新推荐文章于 2024-08-20 15:10:09 发布

阅读量839

点赞数

分类专栏：算法总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_Black/article/details/81002893

版权

算法总结专栏收录该内容

26 篇文章 2 订阅

订阅专栏

参考：https://www.jianshu.com/p/e52a256cb86d

普通的梯度学习方法分为三种，即常见的 Batch gradient descent 、Stochastic gradient descent、Mini-batch gradient descent

存在的问题：

1 选择一个合理的学习速率很难。如果学习速率过小，则会导致收敛速度很慢；如果学习速率过大，那么就会阻碍收敛，即在极值点附近会震荡。学习速率调整（又称学习速率调度，Learning rate schedules），在每次更新过程中，改变学习速率，如退火。一般使用某种事先设定的策略或者在每次迭代中衰减一个较小的阈值。无论哪种调整方法，都需要事先进行固定设置，这便无法自适应每次学习的数据集特点。

2.模型所有的参数每次更新都是使用相同的学习速率。如果数据特征是稀疏的或者每个特征有着不同的取值统计特征与空间，那么便不能在每次更新中每个参数使用相同的学习速率，那些很少出现的特征应该使用一个相对较大的学习速率。

3.对于非凸目标函数，容易陷入那些次优的局部极值点中，如在神经网路中。那么如何避免呢。而更严重的问题不是局部极值点，而是鞍点。

指数加权平均的概念

上图中的0.9称之为β，θ1代表第一天的温度，v相当于平均1/（1-β）的天数的数据

解释：

当到10天后，由于0.9的10次方减少到比较小的值，故可认为v相当于平均1/（1-β）的天数的数据，此时β为0.9

动量梯度下降（Momentum）

更新w：

w=w-αVdw 更新b同理

效果（红色为采用动量梯度下降后）：

RMSprop梯度下降

更新参数：

Adam优化梯度下降

修正后的动量和RMSprop为：

Adam其实就是前2者的结合，在加入超参数

超参数经验值：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。