梯度下降算法计算过程的理解-CSDN博客

本文链接：https://blog.csdn.net/YXXXYX/article/details/141279311

本文主要注重计算细节，即计算过程，前提要知道梯度下降算法的大致原理，如有错误欢迎指正
（内容基于文心一言生成）

下面介绍的是批量梯度下降（Batch Gradient Descent, BGD）和小批量梯度下降算法（Mini-Batch Gradient Descent, MBGD）

视频讲解：【[5分钟深度学习] #01 梯度下降算法】 https://www.bilibili.com/video/BV1oY411N7Xz/?share_source=copy_web&vd_source=78d2dcd96262168cc1157adc0b58ab57

文心一言对话：https://yiyan.baidu.com/share/jE4rZGZlOs

案例引入

线性回归模型

假设有一个简单的线性回归模型，其形式为：

$h_{\theta}(x) = \theta_0 + \theta_1 x$

其中， $h_{\theta}(x)$ 是模型的预测值， $x$ 是输入特征， $\theta_0$ 和 $\theta_1$ 是模型参数（也称为权重）。

损失函数

对于线性回归，常用的损失函数是均方误差（Mean Squared Error, MSE）：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) - y^{(i)})^2$

其中， $m$ 是训练样本的数量， $x^{(i)}$ 和 $y^{(i)}$ 分别是第 $i$ 个样本的输入和输出（真实值）， $h_{\theta}(x^{(i)})$ 是模型对第 $i$ 个样本的预测值。

求全局梯度

为了找到使损失函数最小的参数 $\theta$ ，需要计算损失函数关于每个参数 $\theta_j$ 的偏导数，即梯度。

对于参数 $\theta_0$ 和 $\theta_1$ ，梯度分别为（本质上为单个样本梯度求和后取平均值）：

$\frac{\partial J(\theta)}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) - y^{(i)})$

$\frac{\partial J(\theta)}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) - y^{(i)}) \cdot x^{(i)}$

这里，可以注意到梯度计算涉及到了所有训练样本（代值到上面的公式）。具体来说：

对于每个样本 $i$ （样本理解为一组训练数据），计算预测值 $h_{\theta}(x^{(i)})$ 和真实值 $y^{(i)}$ 之间的误差 $h_{\theta}(x^{(i)}) - y^{(i)}$ 。
然后，将这些误差相加（对于 $\theta_0$ 的梯度，直接相加；对于 $\theta_1$ 的梯度，还需要乘以对应的 $x^{(i)}$ ）。
最后，将累加的结果除以 $m$ （样本数量），以得到平均梯度。

例子

假设有以下三个训练样本：

$x^{(i)}$	$y^{(i)}$
1	2
2	3
3	5

并且当前的参数值为 $\theta_0 = 0$ 和 $\theta_1 = 0$ 。

正向传播：
- 对于第一个样本， $h_{\theta}(1) = 0 + 0 \cdot 1 = 0$ ，误差为 $0 - 2 = - 2$ 。
- 对于第二个样本， $h_{\theta}(2) = 0 + 0 \cdot 2 = 0$ ，误差为 $0 - 3 = - 3$ 。
- 对于第三个样本， $h_{\theta}(3) = 0 + 0 \cdot 3 = 0$ ，误差为 $0 - 5 = - 5$ 。
计算梯度（代上面公式）：
- $\frac{\partial J(\theta)}{\partial \theta_0} = \frac{1}{3} \left( (-2) + (-3) + (-5) \right) = \frac{1}{3} \cdot (-10) = -\frac{10}{3}$
- $\frac{\partial J(\theta)}{\partial \theta_1} = \frac{1}{3} \left( (-2) \cdot 1 + (-3) \cdot 2 + (-5) \cdot 3 \right) = \frac{1}{3} \cdot (-2 - 6 - 15) = \frac{1}{3} \cdot (-23) = -\frac{23}{3}$

现在，有了全局梯度，可以使用这些梯度来更新参数 $\theta_0$ 和 $\theta_1$ ，以期望减少损失函数的值。

总结

在批量梯度下降算法计算过程中需要遍历整个数据集进行计算，其中计算全局梯度的方法是分别求每一个训练数据的loss（即单个样本的损失），再分别求每一个loss关于模型参数的梯度，最后将这些梯度求和并取均值。

具体来说，对于每个训练样本 $x^{(i)}, y^{(i)})$ ，可以计算其损失 $L^{(i)}(\theta)$ （注意这里为了与全局损失 $J(\theta)$ 区分，使用了 $L^{(i)}(\theta)$ 来表示单个样本的损失），然后计算该损失关于模型参数 $\theta$ 的梯度 $\nabla_{\theta}L^{(i)}(\theta)$ 。

🌟全局损失 $J(\theta)$ 是所有单个样本损失的平均值：

$J(\theta) = \frac{1}{m} \sum_{i=1}^{m} L^{(i)}(\theta)$

其中 $m$ 是训练样本的数量。

🌟全局梯度 $\nabla_{\theta}J(\theta)$ 则是所有单个样本梯度 $\nabla_{\theta}L^{(i)}(\theta)$ 的平均值：

$\nabla_{\theta}J(\theta) = \frac{1}{m} \sum_{i=1}^{m} \nabla_{\theta}L^{(i)}(\theta)$

在实际操作中，通常会遍历整个训练集，对每个样本执行以下步骤：

使用当前参数 $\theta$ 和样本 $x^{(i)}$ 进行正向传播，计算预测值 $h_{\theta}(x^{(i)})$ 。
计算单个样本的损失 $L^{(i)}(\theta)$ 。
执行反向传播，计算单个样本损失关于模型参数的梯度 $\nabla_{\theta}L^{(i)}(\theta)$ 。
将这个梯度累加到全局梯度中（或者，更常见的是，使用一个变量来累加所有梯度的和，并在遍历完所有样本后除以 $m$ 来得到平均梯度）。

最后，使用计算得到的平均梯度来更新模型参数 $\theta$ 。

这种方法确保了在更新参数时考虑到了训练集中的所有样本，从而能够朝着全局损失函数减小的方向进行优化。

拓展：小批量梯度下降

小批量梯度下降算法（Mini-Batch Gradient Descent, MBGD）可以部分地理解为在每个batch中的计算过程类似于批量梯度下降（Batch Gradient Descent, BGD）的计算过程，但存在一些关键的区别。

共同点

梯度计算：在MBGD中，对于每个batch内的所有样本，都会计算它们的损失函数，并基于这些损失函数对模型参数求梯度。这与BGD中对整个训练集的所有样本计算梯度的方式在局部batch范围内是相似的。

区别

样本范围：BGD在每次迭代时考虑整个训练集的所有样本，而MBGD则只考虑训练集中的一个子集（即一个batch）的样本。这意味着MBGD的梯度是基于部分数据计算得出的，而不是全部数据。
迭代次数与收敛速度：由于MBGD每次只处理一个batch的数据，因此它的迭代次数会多于BGD（如果总样本数相同且batch大小小于总样本数）。然而，MBGD通常能够更快地收敛，因为它在每次迭代中都能得到一定的梯度更新，而BGD在样本数量极大时可能会因为计算量大而导致迭代速度缓慢。
内存与计算资源：MBGD在内存和计算资源的使用上更加高效，因为它不需要一次性加载整个训练集到内存中。这对于处理大规模数据集尤为重要。