Datawhale X 李宏毅苹果书 AI夏令营 - task01笔记

最新推荐文章于 2024-08-27 23:51:27 发布

qq_54889868

最新推荐文章于 2024-08-27 23:51:27 发布

阅读量145

点赞数 3

文章标签：人工智能笔记

本文链接：https://blog.csdn.net/qq_54889868/article/details/141611357

版权

前言

本次是AI-夏令营的第五期学习笔记。内容是李宏毅老师的《深度学习》。

1.局部最小值：

批量梯度下降法（BGD）：使用所有训练数据计算损失和梯度，然后更新参数。
随机梯度下降法（SGD）：每次只使用一个训练样本来计算损失和梯度，然后更新参数。这种方法引入了随机噪声，更新方向曲折，但在非凸优化问题中更容易逃离局部最小值。
并行计算：在有并行计算能力的情况下，大批量大小可以提高训练效率，因为数据可以并行处理，减少了单次更新所需的时间。
动量法：通过在参数更新中加入之前更新方向的加权和，增加了模型的“惯性”，有助于逃离局部最小值和鞍点。
自适应学习率：在训练过程中，梯度可能变得非常小，导致损失不再下降，但这并不意味着已经达到全局最小值。自适应学习率方法可以根据训练进展调整学习率，以解决这个问题。

动手实践代码，复现理论。现在不是造轮子的时代，可以用现有的库调用，利用大语言模型解释（降维，大学-高中-初中思维）。
有时候学习会跑偏方向。

关注