各种优化算法之间关系

最新推荐文章于 2024-08-08 22:20:34 发布

人鱼线

最新推荐文章于 2024-08-08 22:20:34 发布

阅读量757

点赞数

分类专栏：优化方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qfikh/article/details/105329606

版权

优化方法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Ref：https://www.zhihu.com/question/323747423/answer/790457991

首先看一下下面的流程图，机器学习中常用的一个有梯度优化算法之间的关系：

随机梯度下降SGD：

随机采样一个样本，根据预测值和真实值得到损失，然后计算损失函数对参数 $\theta _{i}$ 的偏导数，来对参数进行更新

动量法momentum：

动量法在梯度下降法的基础上加入一个动量变量来控制不同方向的梯度，
通过加入 $\gamma v_n$ ，使得梯度方向不变的维度上速度变快，梯度方向改变的维度上更新速度变慢，这样就可以加快收敛并减小震荡。

Adagrad：

用梯度平方和对学习率进行衰减，从而实现在接近最优解时降低学习率，提高精度的目的。
$\large \theta_{t+1,i}=\theta_{t,i}- {{\eta}\over{\sqrt{G_{t,ii}}} }g_{t,i}$

RMSprop：

Adagrad 的学习率随着迭代次数的增加，衰减系数累积的太大，导致学习率就变得很小，参数更新很小，使得训练速度很慢。
RMSprop 在Adagrad基础上对衰减系数的计算进行了优化，降低原有梯度对衰减系数的影响，从而使学习率不会降低那么快。

Adam：

Adam是结合了momentum(引入动量来控制梯度) 和RMSprop(引入时间衰减的梯度平方和来降低学习率)

详情请参阅 Ref：

8种优化器简介 https://blog.csdn.net/weixin_38664232/article/details/104936612

如何理解Adam算法 https://www.zhihu.com/question/323747423/answer/790457991

机器学习面试之各种优化器的比较 https://www.jianshu.com/p/ee39eca29117

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。