优化器有哪些,原理是什么?

优化器有哪些,原理是什么?

优化器有哪些,原理是什么?

  1. 随机梯度下降(SGD, Stochastic Gradient Descent)
    原理:SGD每次从训练集中随机选取一个小批量(mini-batch)样本,然后计算这个小批量样本的损失函数,通过反向传播计算梯度,并沿着梯度的反方向更新参数。
    特点
    计算效率高,适用于大规模数据集。
    但对参数较为敏感,需要较好的初始化。
    容易陷入局部最小值,且每次更新方向波动较大。
  2. RMSprop
    原理:RMSprop是一种自适应学习率方法,它通过对梯度进行平方加权平均来调整每个参数的学习率。具体来说,RMSprop维护一个衰减的平均值,该平均值是过去平方梯度的指数衰减和,并利用这个平均值来调整学习率。
    特点
    能够在不稳定(non-stationary)的目标函数上表现良好。
    适用于处理非平稳目标,如与时间相关的数据。
  3. Adam(Adaptive Moment Estimation)
    原理:Adam结合了动量(Momentum)和RMSprop两种优化算法的思想。它计算梯度的一阶矩估计和二阶矩估计,并为不同的参数计算不同的自适应学习率。Adam还通过偏置校正来改进这两个矩估计。
    特点
    适用于大多数非凸优化问题,计算高效且内存需求低。
    超参数具有直观的解释,通常只需很少的调整。
  4. AdaGrad
    原理:AdaGrad通过累积平方梯度来动态调整每个参数的学习率。随着迭代次数的增加,学习率会逐渐减小,这有助于处理稀疏梯度问题。
    特点
    前期学习率衰减较快,后期学习率过小可能导致训练过程提前结束。
    适用于处理稀疏数据。
  5. Momentum
    原理:Momentum通过在梯度更新时加入一个动量项来加速SGD的训练过程。动量项是过去梯度的指数衰减加权平均,它有助于抑制震荡并加速收敛。
    特点
    有助于在相关方向上加速SGD,并抑制震荡。
    可以看作是对SGD的一种改进,使得训练过程更加稳定。
  6. AdamW(带有权重衰减的Adam)
    原理:AdamW在Adam的基础上引入了权重衰减项,以改进模型的泛化能力。权重衰减是一种正则化技术,用于减少过拟合。
    特点
    结合了Adam的高效性和权重衰减的正则化效果。
    有助于提高模型的泛化能力。
  7. LBFGS(Limited-memory BFGS)
    原理:LBFGS是一种拟牛顿法,它利用过去的梯度信息来构造一个近似的海森矩阵(Hessian matrix)的逆,从而进行参数的更新。
    特点
    收敛速度快,但内存消耗较大。
    适用于小批量数据集或全批量数据集。
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

醉后才知酒浓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值