Datawhale X 李宏毅苹果书AI夏令营深度学习详解进阶Task02

最新推荐文章于 2024-08-28 21:40:05 发布

z are

最新推荐文章于 2024-08-28 21:40:05 发布

阅读量240

点赞数 6

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2302_77116414/article/details/141650083

版权

本文了解到梯度下降是深度学习中最为基础的优化算法，其核心思想是沿着损失函数的梯度方向更新模型参数，以最小化损失值。公式如下：

θt+1 ← θt - η * ∇θL(θt)

其中，θ 表示模型参数，η 表示学习率，L 表示损失函数，∇θL 表示损失函数关于参数的梯度。然而，梯度下降在复杂误差表面上存在局限性。例如，在鞍点或局部最小值处，梯度接近零，导致模型参数更新缓慢甚至停滞不前。此外，固定学习率无法适应不同参数的更新需求，容易导致训练过程不稳定。

一、自适应学习率

        为了克服梯度下降的局限性，研究人员提出了自适应学习率算法，例如 AdaGrad、RMSProp 和 Adam。
        AdaGrad 根据梯度大小自动调整学习率，梯度较大的参数学习率较小，梯度较小的参数学习率较大。这有助于加速训练过程并提高模型性能。
        RMSProp 在 AdaGrad 的基础上引入了指数衰减机制，可以动态调整过去梯度的重要性，从而更好地适应梯度变化，避免学习率过早衰减。
Adam 结合了动量和自适应学习率，同时考虑了梯度的方向和大小，并引入了指数衰减机制。这使得 Adam 在多种情况下都表现出优异的性能，成为目前最常用的优化算法之一。

二、学习率调度

尽管自适应学习率算法可以有效提高训练效率，但在某些情况下仍可能出现问题。例如，AdaGrad 在训练后期可能出现“爆炸”现象，即学习率过大导致参数更新过快，从而影响模型性能。
学习率调度可以有效解决这一问题。常见的调度方法包括学习率衰减和学习率预热。
学习率衰减随着训练过程的进行，逐渐减小学习率，有助于模型参数更加精细地更新，避免过拟合。学习率预热在训练初期将学习率设置为较小的值，以避免参数更新过快，并逐步增加学习率，以提高训练效率。

三、优化总结

优化算法的演变过程是一个不断探索和改进的过程。从最基础的梯度下降到自适应学习率算法，再到学习率调度，优化算法逐渐变得更加复杂和高效。
各种优化器之间的区别主要在于计算 mit 和 σit 的方式，以及学习率调度的策略。选择合适的优化器需要根据具体问题进行调整和实验。

四、分类

分类与回归是深度学习中最常见的两种问题。回归是预测连续值，而分类是预测离散值。
在分类问题中，标签通常用数字或独热向量表示。独热向量可以避免类别之间预设关系的问题，并方便计算类别之间的距离。

五、问题与解答

        问题：动量 mit 和均方根 σit 都考虑了过去的梯度，一个放在分子，一个放在分母，它们不会互相抵消吗？
        解答：动量 mit 和均方根 σit 虽然都考虑了过去的梯度，但它们使用过去梯度的方式不同。动量直接将所有梯度相加，考虑了梯度的方向和正负；而均方根将梯度平方后再相加，只考虑梯度的大小，忽略了方向。因此，它们计算出来的结果并不会互相抵消。
        问题：为什么需要预热？
        解答：预热可以避免训练初期学习率过大导致参数更新过快，并帮助收集有关误差表面的信息，从而更好地调整学习率。
        问题：分类与回归的关系是什么？
        解答：分类可以看作是回归的一种特殊情况，即输出为离散值。在分类问题中，标签通常用数字或独热向量表示。
        问题：独热向量在分类问题中有什么作用？
        解答：独热向量可以避免类别之间预设关系的问题，并方便计算类别之间的距离，从而更好地进行分类。
        问题：除了 AdaGrad、RMSProp 和 Adam，还有哪些常用的优化算法？
        解答：除了 AdaGrad、RMSProp 和 Adam，还有许多其他常用的优化算法，例如 SGD、Momentum、Nesterov Momentum 等。选择合适的优化算法需要根据具体问题进行调整和实验。

z are

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书AI夏令营深度学习详解进阶Task02

优化算法的演变过程是一个不断探索和改进的过程。从最基础的梯度下降到自适应学习率算法，再到学习率调度，优化算法逐渐变得更加复杂和高效。各种优化器之间的区别主要在于计算 mit 和 σit 的方式，以及学习率调度的策略。选择合适的优化器需要根据具体问题进行调整和实验。
复制链接

扫一扫