CS231n李飞飞计算机视觉 神经网络训练细节part2上

本文探讨了神经网络训练中常见的参数更新方法,包括SGD、Momentum、Nesterov Momentum、AdaGrad、RMSProp和Adam更新。这些方法通过不同的策略改善了梯度下降的效率和收敛速度,例如动量更新加速收敛,AdaGrad和RMSProp针对不同维度梯度大小的调整,以及Adam结合动量和RMSProp的优势。
摘要由CSDN通过智能技术生成

神经网络训练细节part2上

参数更新机制

  1. SGD
  2. Momentum update
  3. Nesterov Momentum update
  4. AdaGrad update
  5. RMSProp update
  6. Adam update

SGD

随机梯度下降:

x += - learning_rate * dx

特点:如果在水平方向上梯度较小,而在垂直方向上梯度较大,会造成在水平方向更新较慢,而在垂直方向上造成上下抖动。收敛速度慢。

Momentum update

动量更新

v = mu*v - learning_rate * dx
x += v

借用物理学动量的思想,给参数更新加上一个动量。其中mu是超参数,通常设置在0.5到0.9之间,v的初始值为0。

特点:(1)收敛速度比SGD快。(2)从实现可以看出动量更新会逐渐放慢速度,最终停下来。

Nesteriov Momentum update

不同于动量更新,动量更新是当前的梯度加上当前的动量值,得到实际更新的方向,而Nestreriov Momentum update是用当前的动量加上预测的梯度得到更新的方向。

左边

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值