【Datawhale X 李宏毅苹果书 AI夏令营】 Task 2

最新推荐文章于 2024-09-14 16:43:45 发布

chrischen27

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量1k

点赞数 13

文章标签：人工智能

本文链接：https://blog.csdn.net/chrischen27/article/details/141757738

版权

自适应学习率

在训练神经网络的过程中，经常会遇到损失函数不再减少的情况，尽管此时梯度仍然很大。这意味着模型可能停留在一个非临界点，如鞍点或局部最小值之外的地方。使用固定学习率的传统梯度下降方法可能在某些情况下导致训练陷入困境，尤其是在面对具有挑战性的优化地形时，如在陡峭的山谷或平坦的高原上。

在这里插入图片描述

自适应学习率是一种优化技术，它为不同的参数分配不同的学习率，以适应不同参数的变化速度。这种方法允许优化算法在某些方向上采取更大的步骤，而在其他方向上采取更小的步骤，从而提高整体的训练效率和效果。

AdaGrad： AdaGrad是一种自适应学习率方法，它根据每个参数的历史梯度大小自动调整学习率。具体而言，对于梯度较大的参数，AdaGrad会减小其学习率；而对于梯度较小的参数，则会增大其学习率。这种机制可以帮助算法在不同参数空间中保持一致的更新速率，特别是在处理稀疏数据时表现良好。
RMSProp： RMSProp是对AdaGrad的一种改进，它引入了一个衰减因子α，用于控制历史梯度的重要性。这解决了AdaGrad中累积梯度平方导致的学习率过早衰减的问题。RMSProp允许新观察到的梯度对当前的学习率产生更大的影响，从而使算法能更快地对新信息作出响应，并在平坦区域加大步幅，在陡峭区域减小步幅。
Adam： Adam算法结合了动量法的思想和自适应学习率的优点。它利用动量机制来加速到达最小值，并使用类似于RMSProp的方法来自适应地调整学习率。Adam算法因其良好的性能和广泛的适用性，成为目前深度学习中最常用的优化器之一。Adam能够处理非平稳目标函数，并且对于不同的参数具有良好的自适应性。

在深度学习中，选择合适的学习率对于模型的训练至关重要。一个固定的学习率可能在训练过程中导致模型收敛缓慢或者训练过程不稳定。 例如，如果学习率设置得过高，梯度下降可能会在最优点附近跳来跳去而无法收敛；如果学习率太低，则需要更多的迭代次数才能达到最小值，这将增加训练的时间成本。

为了克服这些问题，可以采用学习率调度策略，即在训练过程中动态调整学习率。以下是几种常见的学习率调度方法：

这种策略指的是随着训练的进行逐渐减少学习率。它可以帮助模型更精细地逼近局部最小值。
实现方式包括线性衰减、指数衰减、步进衰减等。例如，线性衰减是每经过一定数量的epoch后，按一定比例减少学习率；指数衰减则是每次迭代都乘以一个小于1的比例因子。
优点是可以避免学习率过高导致的震荡，并且有助于模型最终收敛。
缺点是需要手动设定衰减的时机和速度，这可能需要一些实验和调参。