深度学习4-梯度下降-CSDN博客

本文链接：https://blog.csdn.net/finly4599/article/details/141402499

梯度下降（Gradient Descent）是一种常用的优化算法，用于训练机器学习模型，特别是深度学习中的神经网络。它通过迭代地调整模型参数，使得损失函数达到最小值，从而优化模型的性能。

梯度下降算法的核心思想是沿着损失函数的负梯度方向进行参数更新，因为梯度的方向指向函数上升最快的方向，所以沿着负梯度方向移动能够使损失函数的值减小。

损失函数（Loss Function）：衡量模型预测值与真实值之间差异的函数，通常记作 $L(\theta)$ ，其中 $\theta$ 代表模型参数。目标是最小化这个函数。
梯度（Gradient）：损失函数相对于模型参数的导数，表示损失函数在参数空间中的变化率。梯度的方向指向损失函数增长最快的方向。

初始化参数：随机初始化模型参数 $\theta$ 。
计算梯度：计算损失函数 $L(\theta)$ 相对于每个参数 $\theta$ 的梯度 $\nabla_\theta L(\theta)$ 。
更新参数：根据学习率 $\alpha$ 和计算得到的梯度，更新模型参数：
$\theta = \theta - \alpha \nabla_\theta L(\theta)$
迭代：重复步骤 2 和 3，直到达到停止条件（如损失函数收敛或达到预设的迭代次数）。

根据梯度计算和参数更新的方式，梯度下降主要分为三种类型：

批量梯度下降（Batch Gradient Descent）：
- 在每次更新时，使用整个训练集来计算损失函数的梯度。
- 优点：每次更新都能准确地沿着损失函数的下降方向移动，确保收敛。
- 缺点：计算成本高，特别是对于大数据集，可能会导致计算效率低下。
随机梯度下降（Stochastic Gradient Descent, SGD）：
- 在每次更新时，只使用一个样本来计算损失函数的梯度。
- 优点：计算效率高，适用于大数据集；可以跳出局部最优解。
- 缺点：由于引入了噪声，收敛路径可能不稳定，导致损失函数在收敛过程中波动较大。
小批量梯度下降（Mini-Batch Gradient Descent）：
- 在每次更新时，使用一小部分（mini-batch）的训练样本来计算损失函数的梯度。
- 优点：在计算效率和收敛稳定性之间取得平衡，是目前最常用的梯度下降方法。
- 缺点：选择 mini-batch 的大小需要权衡，通常需要通过实验来确定。

学习率（Learning Rate, $\alpha$ ） 是梯度下降中的一个重要超参数，决定了每次更新时参数移动的步长。

为了加快收敛速度和提高优化效果，许多改进的梯度下降方法被提出：

动量法（Momentum）：
- 在更新参数时加入上一次更新的动量，类似于物理中的惯性。
- 更新公式： $v_t = \beta v_{t-1} + \alpha \nabla_\theta L(\theta)$ ， $\theta = \theta - v_t$
- 其中， $\beta$ 是动量系数，通常设置为 0.9。
- 动量法可以加速梯度下降，并减小震荡。
RMSProp：
- 动态调整学习率，使得学习率与参数的历史梯度相关。
- 更新公式： $s_t = \beta s_{t-1} + (1-\beta)(\nabla_\theta L(\theta))^2$ ， $\theta = \theta - \frac{\alpha}{\sqrt{s_t + \epsilon}} \nabla_\theta L(\theta)$
- RMSProp 可以减小震荡并适应不同方向上梯度的变化。
Adam（Adaptive Moment Estimation）：
- 结合了动量法和 RMSProp 的优点，使用一阶和二阶矩估计来调整学习率。
- 更新公式：
  $m_t = \beta_1 m_{t-1} + (1-\beta_1) \nabla_\theta L(\theta)$
  $v_t = \beta_2 v_{t-1} + (1-\beta_2)(\nabla_\theta L(\theta))^2$
  $\theta = \theta - \frac{\alpha \cdot \hat{m_t}}{\sqrt{\hat{v_t}} + \epsilon}$
- 其中， $\hat{m_t}$ 和 $\hat{v_t}$ 分别是 $m_t$ 和 $v_t$ 的偏差修正。
- Adam 是目前最常用的优化算法之一，适用于各种神经网络模型。