各种优化算法之间关系

Ref:https://www.zhihu.com/question/323747423/answer/790457991

首先看一下下面的流程图,机器学习中常用的一个有梯度优化算法之间的关系:

随机梯度下降SGD:

  • 随机采样一个样本,根据预测值和真实值得到损失,然后计算损失函数对参数\theta _{i}的偏导数,来对参数进行更新

动量法momentum:

  • 动量法在梯度下降法的基础上加入一个动量变量来控制不同方向的梯度,
  • 通过加入 \gamma v_n ,使得梯度方向不变的维度上速度变快,梯度方向改变的维度上更新速度变慢,这样就可以加快收敛并减小震荡。

Adagrad:

  •  用梯度平方和对学习率进行衰减,从而实现在接近最优解时 降低学习率,提高精度的目的。
  • \large \theta_{t+1,i}=\theta_{t,i}- {​{\eta}\over{\sqrt{G_{t,ii}}} }g_{t,i}

RMSprop:

  • Adagrad 的学习率随着迭代次数的增加,衰减系数累积的太大,导致学习率就变得很小,参数更新很小,使得训练速度很慢。
  • RMSprop 在Adagrad基础上对衰减系数的计算进行了优化,降低原有梯度对衰减系数的影响,从而使学习率不会降低那么快。

Adam:

Adam是结合了momentum(引入动量来控制梯度) 和RMSprop(引入时间衰减的梯度平方和 来降低学习率) 

 

详情请参阅 Ref:

8种优化器简介 https://blog.csdn.net/weixin_38664232/article/details/104936612

如何理解Adam算法 https://www.zhihu.com/question/323747423/answer/790457991

机器学习面试之各种优化器的比较 https://www.jianshu.com/p/ee39eca29117

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值