优化算法进阶——学习打卡

在这里插入图片描述
为最小化损失函数进行参数更新时,对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。
损失函数中的参数,单独进行更新时参数们的收敛速度一般是不同的,这种不同造成了更新过程中损失值的震荡,或者难以收敛。如:f(x)=0.1 * x1^2 + 2 * x2^2中,x2与x1的梯度更新速度相差20倍。

给定学习率,梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么,我们需要一个较小的学习率从而避免自变量在竖直方向上越过目标函数最优解。然而,这会造成自变量在水平方向上朝最优解移动变慢。但将学习率调得稍大一点,此时自变量在竖直方向不断越过最优解并逐渐发散

为缓解上述问题,可以采取两种方法。
1:Preconditioning的做法:在二阶优化中,我们使用Hessian matrix的逆矩阵(或者pseudo inverse)来左乘梯度向量。
2:Averaging history gradient。

Momentum

增加动量m,momentum算法更新参数的两种写法:
在这里插入图片描述
由指数加权移动平均理解动量法。由指数加权移动平均的形式可得,动量m 实际上对序列nt*gt/(1-B) 做了指数加权移动平均。指数加权移动公式:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值