gradient descent and its variants

借鉴了:
Hongyi Li的ML课程第九节《tips for DL》
https://www.jianshu.com/p/aebcaf8af76e
《ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION》
https://zhuanlan.zhihu.com/p/105788925

Gradient descent及其变形

  1. stochastic gradient descent
    一次更新take in一个data point或一个mini-batch。
    在这里插入图片描述

  2. Adagrad
    use first derivative to estimate second derivative
    adaptive learning rate = learning rate/RMS of all previous and current gradients
    large RMS(sum of gradients): small learning rate, which means we need to slow down the update speed;
    small RMS: large learning rate
    在这里插入图片描述

  3. RMSProp
    梯度平方进行加权均值
    adaptive learning rate = learning rate/sigma
    sigma includes all previous gradients g0 to gt-1, and current gradient gt.
    small alpha: tends to believe gt to update parameters w_t-1
    large alpha: tends to believe previous gradients (sigma t-1) to update w_t-1
    在这里插入图片描述

  4. momentum
    在这里插入图片描述
    大致朝原方向v_t-1走,新计算出的gradient(gt)会修正原更新方向v_t-1 by simply adding v_t-1 onto gt, which means强化与之同向的分量,弱化与之反向的分量。

  5. Adam
    在这里插入图片描述
    在这里插入图片描述
    mt //一阶矩(1st moment vector),movement vector using momentum. First Moment Estimation,即梯度的均值.
    vt //二阶原始矩(2nd raw moment vector),i.e. E[(X^2)],RMSProp. Second Moment Estimation,即梯度的未中心化的方差

then bias correction:
由于m0 and v0初始化为0,会导致mt and vt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均值mt and vt进行偏差纠正,降低偏差对训练初期的影响。开始1-beta^t较小,接近于0,随着t增大,逐渐接近于1。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值