深度学习中的优化

深度学习的优化,基本算法有:

1. 随机梯度下降

SGD

2. 动量

其实就是综合历史累计的梯度和当前梯度

SGD_momentum

3. Nesterov 动量

梯度值不是来自于当前梯度,而是来自于由历史累计梯度得到的预测位置的梯度

SGD_Nesterov_momentum

由于学习率是难以设置的超参,于是有如下自适应学习率算法:

1. AdaGrad

当前学习率由初始学习率除以历史梯度的累计平方和开根号得到

AdaGrad

2. RMSProp

和AdaGrad相比,RMSProp提高了当前梯度所占的比重,而可以逐步消减遥远过去历史的梯度影响

3. Adam

Adam可以看作是RMSProp和动量的某种结合,用一个变量累积梯度(用来影响梯度),另一个变量累积梯度的平方(用来收缩学习率)

 

以上算法的伪代码,截图自 https://www.deeplearningbook.org/contents/optimization.html (关于优化的更多内容,也可以参考这个链接)

 

祖国翔,于上海

https://www.linkedin.com/in/guoxiang-zu/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值