三种梯度下降的对比——BGD、SGD、MSGD_三种梯度下降的损失函数-CSDN博客

本文链接：https://blog.csdn.net/qq_19672707/article/details/94056538

本文深入探讨了梯度下降算法的三种主要形式：批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(MBGD)，并详细分析了它们各自的优缺点。通过对均方误差损失函数的计算，揭示了不同梯度下降法在数据集上的表现差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降

批量梯度下降（BGD）
随机梯度下降（SGD）
小批量梯度下降（MBGD）
Reference

梯度下降优化器有很多，但是本文仅仅讨论梯度下降时所采用的数据量对效果的影响。从梯度下降的大类来分，可以分为如下的三类：
三个梯度下降法的损失函数为：均方误差损失函数

C=\frac{1}{2m}\sum_{i=1}^m(Y_i-h_w(X_i))^2

h(w)=\sum_{i=0}^nw_ix_i

批量梯度下降（BGD）

BGD（Batch Gradient Descent）是指的在求解梯度时一次性的将整个数据集进行迭代，从而计算出平均的梯度用于参数的更新：
$w_{i+1} =w-\eta \frac{1}{m}\sum_{j=0}^m \frac{\partial C}{\partial w}_j$
其中m为数据集的数据量数。
优点：每一次的迭代都会朝着最优解的方向进行，不会出现迭代中的震荡
缺点：穿越整个数据集所消耗的时间与空间巨大，而使得优化过程不经济

随机梯度下降（SGD）

SGD（Stochastic Gradient Descent）是指的在每次求解梯度时仅从数据集中随机的选取一个数据点进行梯度计算，从而更新参数：
$w_{i+1} =w-\eta \frac{\partial C}{\partial w}$
其中每次用于更新的数据量为1
优点：优化的速度很快。
缺点：数据中会存在噪音，使得优化朝着并不是最优的方向而迭代。同时还会使得训练的准确率降低。