小批量梯度下降（Mini-batch Gradient Descent）

six.学长

于 2024-06-30 10:44:35 发布

阅读量1k

点赞数 22

分类专栏：梯度下降文章标签： batch 机器学习开发语言

本文链接：https://blog.csdn.net/m0_51200050/article/details/140077608

版权

梯度下降专栏收录该内容

7 篇文章 0 订阅

订阅专栏

小批量梯度下降（Mini-batch Gradient Descent）

小批量梯度下降是一种介于批量梯度下降和随机梯度下降之间的优化算法。每次更新参数时，小批量梯度下降使用一小部分（小批量）训练数据计算梯度，而不是使用整个训练数据集或单个样本。这种方法结合了批量梯度下降和随机梯度下降的优点，既能提高计算效率，又能保持梯度更新的稳定性。

小批量梯度下降的步骤

初始化参数：随机初始化模型参数。
将训练数据集分成若干小批量：每个小批量包含若干训练样本。
计算每个小批量的梯度：对每个小批量的数据，计算损失函数对模型参数的梯度。
更新参数：按照梯度的负方向更新参数。
迭代：对所有小批量重复步骤3和4，直到损失函数收敛或达到预设的迭代次数。

小批量梯度下降的公式

小批量梯度下降的更新公式为：
$\theta = \theta - \alpha \nabla_{\theta} J_{mini}(\theta)$
其中：
- $\theta$ 是模型参数。
- $\alpha$ 是学习率，控制每次更新的步长。
- $\nabla_{\theta} J_{mini}(\theta)$ 是小批量数据上的损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度。

具体数据示例

假设我们有一个简单的线性回归问题，训练数据集如下：

x	y
1	2
2	3
3	4
4	5
5	6
6	7
7	8
8	9

我们要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。

步骤1：初始化参数

假设 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ 。

步骤2：将训练数据集分成若干小批量

假设我们将数据集分成每个批次包含4个样本的两个小批量：

小批量1： $(1, 2), (2, 3), (3, 4), (4, 5)$
小批量2： $(5, 6), (6, 7), (7, 8), (8, 9)$

步骤3：计算每个小批量的梯度并更新参数

小批量1

计算损失函数和梯度：

损失函数 $J(\theta)$ 为均方误差（MSE）：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(\theta) - y_i)^2$
其中， $m$ 是小批量样本的数量。

对第一个小批量：
$h(\theta) = \theta_0 + \theta_1 x$

计算梯度：

$\frac{\partial J}{\partial \theta_0} = \frac{1}{4} \sum_{i=1}^{4} (h(\theta) - y_i)$
$\frac{\partial J}{\partial \theta_1} = \frac{1}{4} \sum_{i=1}^{4} (h(\theta) - y_i) x_i$

初始参数 $\theta_0 = 0$ ， $\theta_1 = 0$ ：

对每个样本计算预测值 $h(\theta)$ 和误差：

$\begin{align*} h(\theta)_{1} &= 0 + 0 \times 1 = 0 &\text{误差} &= 0 - 2 = -2 \\ h(\theta)_{2} &= 0 + 0 \times 2 = 0 &\text{误差} &= 0 - 3 = -3 \\ h(\theta)_{3} &= 0 + 0 \times 3 = 0 &\text{误差} &= 0 - 4 = -4 \\ h(\theta)_{4} &= 0 + 0 \times 4 = 0 &\text{误差} &= 0 - 5 = -5 \\ \end{align*}$

计算梯度：

$\frac{\partial J}{\partial \theta_0} = \frac{1}{4} \sum_{i=1}^{4} (-2 - 3 - 4 - 5) = \frac{1}{4} (-14) = -3.5$

$\frac{\partial J}{\partial \theta_1} = \frac{1}{4} \sum_{i=1}^{4} (-2 \times 1 - 3 \times 2 - 4 \times 3 - 5 \times 4) = \frac{1}{4} (-2 - 6 - 12 - 20) = \frac{1}{4} (-40) = -10$

更新参数：

$\theta_0 = \theta_0 - \alpha \frac{\partial J}{\partial \theta_0} = 0 - 0.01 \times (-3.5) = 0.035$

$\theta_1 = \theta_1 - \alpha \frac{\partial J}{\partial \theta_1} = 0 - 0.01 \times (-10) = 0.1$

小批量2

使用更新后的参数计算第二个小批量的梯度并更新参数：

对每个样本计算预测值 $h(\theta)$ 和误差：

$\begin{align*} h(\theta)_{5} &= 0.035 + 0.1 \times 5 = 0.535 &\text{误差} &= 0.535 - 6 = -5.465 \\ h(\theta)_{6} &= 0.035 + 0.1 \times 6 = 0.635 &\text{误差} &= 0.635 - 7 = -6.365 \\ h(\theta)_{7} &= 0.035 + 0.1 \times 7 = 0.735 &\text{误差} &= 0.735 - 8 = -7.265 \\ h(\theta)_{8} &= 0.035 + 0.1 \times 8 = 0.835 &\text{误差} &= 0.835 - 9 = -8.165 \\ \end{align*}$

计算梯度：

$\frac{\partial J}{\partial \theta_0} = \frac{1}{4} \sum_{i=1}^{4} (-5.465 - 6.365 - 7.265 - 8.165) = \frac{1}{4} (-27.26) = -6.815$

$\frac{\partial J}{\partial \theta_1} = \frac{1}{4} \sum_{i=1}^{4} (-5.465 \times 5 - 6.365 \times 6 - 7.265 \times 7 - 8.165 \times 8)$

$\frac{1}{4} (-27.325 - 38.19 - 50.855 - 65.32) = \frac{1}{4} (-181.69) = -45.4225$

更新参数：

$\theta_0 = \theta_0 - \alpha \frac{\partial J}{\partial \theta_0} = 0.035 - 0.01 \times (-6.815) = 0.035 + 0.06815 = 0.10315$

$\theta_1 = \theta_1 - \alpha \frac{\partial J}{\partial \theta_1} = 0.1 - 0.01 \times (-45.4225) = 0.1 + 0.454225 = 0.554225$

多次迭代

继续对所有小批量重复上述计算和更新步骤，直到模型参数收敛。

总结

小批量梯度下降通过每次使用一个小批量的训练数据计算梯度并更新参数，结合了批量梯度下降和随机梯度下降的优点，提高了计算效率并保持了梯度更新的稳定性。通过具体数据示例，可以清楚地看到小批量梯度下降如何在每次迭代中逐步更新

six.学长

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
小批量梯度下降（Mini-batch Gradient Descent）

小批量梯度下降通过每次使用一个小批量的训练数据计算梯度并更新参数，结合了批量梯度下降和随机梯度下降的优点，提高了计算效率并保持了梯度更新的稳定性。通过具体数据示例，可以清楚地看到小批量梯度下降如何在每次迭代中逐步更新。
复制链接

扫一扫

专栏目录