从动力学角度看优化算法SGD:一些小启示

本文从动力学角度分析优化算法SGD,探讨SGD的有效性、批量大小的影响、学习率调整、动量加速以及Nesterov改进。通过随机微分方程的视角,解释了为何初始阶段应使用小批量和大学习率,随着迭代增加,批量大小应缓慢增加,学习率逐渐减小。同时,动量加速原理被揭示,表明其在优化过程中的加速作用。
摘要由CSDN通过智能技术生成

640


作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm


在本文中,我们来关心优化算法 SGD(stochastic gradient descent,随机梯度下降),包括带 Momentum 和 Nesterov 版本的。对于 SGD,我们通常会关心的几个问题是: 


  • SGD 为什么有效? 

  • SGD 的 batch size 是不是越大越好? 

  • SGD 的学习率怎么调? 

  • Momentum 是怎么加速的? 

  • Nesterov 为什么又比 Momentum 稍好? 

  • ... 


这里试图从动力学角度分析 SGD,给出上述问题的一些启发性理解。


梯度下降


既然要比较谁好谁差,就需要知道最好是什么样的,也就是说我们的终极目标是什么?


训练目标分析


假设全部训练样本的集合为 S,损失度量为 L(x;θ),其中 x 代表单个样本,而 θ 则是优化参数,那么我们可以构建损失函数:


640


训练的终极目标,则是找到 L(θ) 的一个全局最优点(这里的最优是“最小”的意思)。


GD与ODE

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值