图解深度学习 - 基于梯度的优化（梯度下降）

大模型微调实战

于 2025-01-16 11:18:19 发布

阅读量826

点赞数 21

文章标签：深度学习人工智能金融知识图谱大模型

本文链接：https://blog.csdn.net/2401_85373898/article/details/145176671

版权

在模型优化过程中，我们曾尝试通过手动调整单个标量系数来观察其对损失值的影响。具体来说，当初始系数为0.3时，损失值为0.5。随后，我们尝试增加系数至0.35，发现损失值上升至0.6；相反，当系数减小至0.25时，损失值下降至0.4。这一实验结果表明，在该特定情境下，减小系数值有助于降低模型的损失值。

**然而，这种方法在实际应用中非常低效，因为模型通常包含大量的系数（可能达到上千个甚至上百万个），**对每个系数进行两次前向传播来计算不同取值下的损失值，计算成本极高。

**为了解决这个问题，引入了梯度下降法作为一种更高效的优化方法。**梯度下降法通过计算损失函数对每个系数的梯度（即损失值对系数的导数），能够指导我们如何调整每个系数以最小化损失值，而无需对每个系数进行多次前向传播试验。

一、梯度下降

梯度下降（Gradient Descent********）是什么？梯度下降是一种通过迭代计算损失函数梯度并沿其反方向更新参数以最小化损失值****的优化算法。

梯度下降法基于这样一个观察：如果一个函数在某点处可微且有定义，那么函数在该点沿着梯度的反方向下降最快。因此，算法从初始估计的参数点开始，通过计算损失函数的梯度，并沿着梯度的反方向进行迭代搜索，逐步接近函数的局部极小值。

初始化参数：选择一个起始点作为初始参数，这些参数可以是任意值或随机选择的值。
计算梯度：计算当前参数点处的损失函数的梯度。梯度是一个向量，表示损失函数在每个参数维度上的变化率。
更新参数：使用梯度信息来更新参数，以使损失函数的值减小。这通常是通过沿着梯度的反方向进行调整来实现的，调整的大小由学习率决定。
迭代更新：重复计算梯度和更新参数的步骤，直到满足停止准则，如达到预设的最大迭代次数或损失函数值减小到足够小的值。

“一图 + 一句话”彻底搞懂梯度下降。

“梯度下降是一种通过迭代计算损失函数梯度并沿其反方向调整参数，以最小化损失值的优化算法，它避免了手动调整每个参数的繁琐和高昂计算成本。****”

二、BGD、SGD、MBGD

**********梯度下降算法有哪些？********批量梯度下降（BGD）利用全部数据计算梯度，收敛快但计算量大；随机梯度下降（SGD）每次仅使用一个样本，计算量小但收敛慢且可能震荡；小批量梯度下降（MBGD）**********则是两者的折中，选择部分样本计算梯度，既降低了计算量又保持了较快的收敛速度。