Datawhale X 李宏毅苹果书AI夏令营 - Task2笔记 - 3.3 & 4 & 5

<臣本布衣>

于 2024-08-29 08:02:43 发布

阅读量326

点赞数 17

分类专栏： DatawhaleAI夏令营笔记文章标签：人工智能笔记

本文链接：https://blog.csdn.net/bmws_/article/details/141656546

版权

3 篇文章 0 订阅

订阅专栏

动量法是一种改进梯度下降的优化算法，旨在解决在训练过程中遇到的局部最小值或鞍点的问题。动量法结合了当前梯度和上一步的梯度，从而使得参数更新不只依赖于当前的梯度，还考虑了过去的更新方向。

动量的好处：动量法可以帮助算法跳出局部最小值或鞍点。即使当前的梯度方向并不利于下降，但如果动量的方向与当前梯度方向不一致，动量可能会带领参数跳过小丘，寻找更好的局部最小值。

自适应学习率是为每个参数动态调整学习率的策略。它通过调整学习率，克服了固定学习率可能带来的问题，如震荡和收敛慢。

AdaGrad（Adaptive Gradient）是一种自适应学习率方法，根据每个参数的历史梯度调整其学习率。它的核心思想是：

在这里插入图片描述

其中，是梯度平方的累计和。

RMSProp（Root Mean Square Propagation）改进了AdaGrad的累积方式，引入了一个衰减因子，使得最近的梯度更新更加重要。

Adam（Adaptive Moment Estimation）结合了动量法和RMSProp，通过同时考虑梯度的一阶矩（动量）和二阶矩（均方根）来更新参数。

学习率调度（Learning Rate Scheduling）用于动态调整学习率，解决自适应学习率方法可能出现的步伐过大的问题。常见的方法包括：

优化算法在深度学习模型训练中扮演了至关重要的角色。从基本的梯度下降到复杂的自适应学习率方法，如AdaGrad、RMSProp和Adam，优化算法不断演进，以应对更复杂的训练任务和数据。理解这些优化方法的原理和应用，有助于选择合适的优化策略，提高模型的训练效率和效果。

关注