Datawhale X 李宏毅苹果书AI夏令营 - Task2笔记 - 3.3 & 4 & 5

1. 动量法

动量法是一种改进梯度下降的优化算法,旨在解决在训练过程中遇到的局部最小值或鞍点的问题。动量法结合了当前梯度和上一步的梯度,从而使得参数更新不只依赖于当前的梯度,还考虑了过去的更新方向。

  • 动量的好处:动量法可以帮助算法跳出局部最小值或鞍点。即使当前的梯度方向并不利于下降,但如果动量的方向与当前梯度方向不一致,动量可能会带领参数跳过小丘,寻找更好的局部最小值。

2. 自适应学习率

自适应学习率是为每个参数动态调整学习率的策略。它通过调整学习率,克服了固定学习率可能带来的问题,如震荡和收敛慢。

2.1 AdaGrad

AdaGrad(Adaptive Gradient)是一种自适应学习率方法,根据每个参数的历史梯度调整其学习率。它的核心思想是:

  • 更新公式

在这里插入图片描述

其中,是梯度平方的累计和。

  • 优点:在梯度较大的方向上,AdaGrad 会减小学习率,在梯度较小的方向上,增加学习率。
2.2 RMSProp

RMSProp(Root Mean Square Propagation)改进了AdaGrad的累积方式,引入了一个衰减因子,使得最近的梯度更新更加重要。

  • 更新公式
    在这里插入图片描述

    其中,α是衰减因子,控制历史梯度的影响程度。

  • 优点:RMSProp 可以有效处理梯度下降过程中的震荡,并且能适应非平坦的误差表面。

2.3 Adam

Adam(Adaptive Moment Estimation)结合了动量法和RMSProp,通过同时考虑梯度的一阶矩(动量)和二阶矩(均方根)来更新参数。

  • 更新公式
    在这里插入图片描述

    其中,在这里插入图片描述在这里插入图片描述分别是梯度的一阶矩和二阶矩的估计,β1 和 β2 是衰减因子,ϵ 是防止除零的微小常数。

  • 优点:Adam 自适应调整学习率,并且结合了动量和自适应学习率的优点,广泛应用于实际任务中。

3. 学习率调度

学习率调度(Learning Rate Scheduling)用于动态调整学习率,解决自适应学习率方法可能出现的步伐过大的问题。常见的方法包括:

  • 学习率衰减:随着训练的进行,学习率逐渐减小。
    在这里插入图片描述

  • 预热(Warmup):在训练初期,学习率先逐渐增加,然后再逐渐减小。这有助于在训练开始时稳定优化过程,并防止早期学习率过大导致的训练不稳定。

4. 分类与回归

  • 回归:预测连续值,使预测值尽可能接近真实值。
  • 分类:预测离散类别,目标是将输入样本分配到正确的类别。通常使用独热编码(one-hot encoding)来表示类别。

总结

优化算法在深度学习模型训练中扮演了至关重要的角色。从基本的梯度下降到复杂的自适应学习率方法,如AdaGrad、RMSProp和Adam,优化算法不断演进,以应对更复杂的训练任务和数据。理解这些优化方法的原理和应用,有助于选择合适的优化策略,提高模型的训练效率和效果。

  • 17
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值