数学基础 -- 梯度下降算法

最新推荐文章于 2024-09-27 14:28:55 发布

sz66cm

最新推荐文章于 2024-09-27 14:28:55 发布

阅读量986

点赞数 22

文章标签：算法人工智能数学基础

本文链接：https://blog.csdn.net/sz66cm/article/details/141478673

版权

梯度下降算法

梯度下降算法（Gradient Descent）是一种优化算法，主要用于寻找函数的局部最小值或全局最小值。它广泛应用于机器学习、深度学习以及统计学中，用于最小化损失函数或误差函数。

梯度下降算法通过以下步骤工作：

初始化参数：随机初始化模型的参数（如权重和偏差），也可以用特定的策略初始化。
计算损失：对当前模型输出和实际目标值计算损失（如均方误差、交叉熵等）。
计算梯度：计算损失函数对每个参数的偏导数，这个偏导数称为梯度。梯度指示了损失函数在各个参数方向上增加或减少的趋势。
更新参数：使用梯度更新模型参数，更新的公式为：
$\theta = \theta - \eta \cdot \nabla J(\theta)$
其中， $\theta$ 是模型参数， $\eta$ 是学习率， $\nabla J(\theta)$ 是损失函数对参数 $\theta$ 的梯度。
重复迭代：重复步骤 2-4，直到损失函数的值不再显著变化或达到预设的迭代次数。

批量梯度下降（Batch Gradient Descent）：
- 在每次更新参数时使用整个训练集计算梯度。
- 优点：更新稳定。
- 缺点：当数据集很大时，每次迭代计算量很大。
随机梯度下降（Stochastic Gradient Descent, SGD）：
- 在每次更新参数时只使用一个样本计算梯度。
- 优点：计算速度快，可以较快地逃离局部最小值。
- 缺点：由于每次只使用一个样本，更新过程可能不稳定，容易产生震荡。
小批量梯度下降（Mini-batch Gradient Descent）：
- 在每次更新参数时使用一个小批量（mini-batch）的样本集计算梯度。
- 结合了批量梯度下降和随机梯度下降的优点，既保持了一定的计算效率，又使更新过程较为平稳。