批量梯度下降（Batch Gradient Descent）--------（含有具体数据示例）

six.学长

于 2024-06-30 10:26:29 发布

阅读量267

点赞数 3

分类专栏：梯度下降文章标签： batch 机器学习开发语言

本文链接：https://blog.csdn.net/m0_51200050/article/details/140077396

版权

梯度下降专栏收录该内容

7 篇文章 0 订阅

订阅专栏

批量梯度下降（Batch Gradient Descent）

批量梯度下降是一种优化算法，用于最小化损失函数，通过迭代地调整模型参数来逼近最优解。它在每次更新参数时使用整个训练数据集来计算梯度，因此也称为标准梯度下降（Standard Gradient Descent）。

批量梯度下降的原理

初始化参数：随机初始化模型参数。
计算梯度：使用整个训练数据集计算损失函数对模型参数的梯度。
更新参数：按照梯度的负方向更新参数。
迭代：重复计算梯度和更新参数，直到损失函数收敛或达到预设的迭代次数。

批量梯度下降的更新公式为：
$\theta = \theta - \alpha \nabla_{\theta} J(\theta)$
其中：
- $\theta$ 是模型参数。
- $\alpha$ 是学习率，控制每次更新的步长。
- $\nabla_{\theta} J(\theta)$ 是损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度。

批量梯度下降的具体步骤

假设我们有一个简单的二次函数 $J(\theta) = \frac{1}{2} \theta^2$ ，需要通过批量梯度下降找到函数的最小值。

步骤1：初始化参数

假设我们随机初始化参数 $\theta = 10$ 。

步骤2：计算梯度

函数 $J(\theta) = \frac{1}{2} \theta^2$ 的梯度为 $\nabla_{\theta} J(\theta) = \theta$ 。当前 $\theta = 10$ ，所以梯度 $\nabla_{\theta} J(10) = 10$ 。

步骤3：更新参数

设定学习率 $\alpha = 0.1$ ，按照梯度下降的公式更新参数：
$\theta = \theta - \alpha \nabla_{\theta} J(\theta)$
$\theta = 10 - 0.1 \times 10 = 10 - 1 = 9$

步骤4：迭代

重复上述步骤，继续迭代：

第2次迭代：
$\theta = 9$
$\nabla_{\theta} J(9) = 9$
$\theta = 9 - 0.1 \times 9 = 9 - 0.9 = 8.1$
第3次迭代：
$\theta = 8.1$
$\nabla_{\theta} J(8.1) = 8.1$
$\theta = 8.1 - 0.1 \times 8.1 = 8.1 - 0.81 = 7.29$
第4次迭代：
$\theta = 7.29$
$\nabla_{\theta} J(7.29) = 7.29$
$\theta = 7.29 - 0.1 \times 7.29 = 7.29 - 0.729 = 6.561$

通过多次迭代， $\theta$ 值逐步减小，最终会收敛到函数的最小值 $\theta = 0$ 。

具体数据示例

假设我们有一个线性回归问题，用批量梯度下降来优化模型参数。给定训练数据集 $x_i, y_i)$ 如下：

x	y
1	2
2	3
3	4
4	5

我们要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。

初始化参数

假设 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ 。

计算梯度

损失函数 $J(\theta)$ 为均方误差：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(\theta) - y_i)^2$
其中 $m$ 是训练样本的数量，梯度为：
$\nabla_{\theta_0} J(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h(\theta) - y_i)$
$\nabla_{\theta_1} J(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h(\theta) - y_i) x_i$

对初始参数 $\theta_0 = 0$ ， $\theta_1 = 0$ ，计算梯度：

- $h(\theta) = 0$
- $\nabla_{\theta_0} J(\theta) = \frac{1}{4} \sum_{i=1}^{4} (0 - y_i) = -\frac{1}{4} (2 + 3 + 4 + 5) = -3.5$
- $\nabla_{\theta_1} J(\theta) = \frac{1}{4} \sum_{i=1}^{4} (0 - y_i) x_i = -\frac{1}{4} (2 \times 1 + 3 \times 2 + 4 \times 3 + 5 \times 4) = -7.5$

更新参数

按照梯度下降公式更新参数：
$\theta_0 = \theta_0 - \alpha \nabla_{\theta_0} J(\theta) = 0 - 0.01 \times (-3.5) = 0.035$
$\theta_1 = \theta_1 - \alpha \nabla_{\theta_1} J(\theta) = 0 - 0.01 \times (-7.5) = 0.075$

多次迭代

继续计算新的梯度并更新参数，直至收敛。

总结

批量梯度下降在每次参数更新时使用整个训练数据集来计算梯度，保证了梯度估计的准确性和参数更新的稳定性。通过具体数据的举例说明，可以清楚地看到梯度下降优化如何逐步逼近最优解。在实际应用中，选择合适的学习率和迭代次数，可以有效地优化模型参数，使模型达到最佳性能。

six.学长

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
批量梯度下降（Batch Gradient Descent）--------（含有具体数据示例）

批量梯度下降在每次参数更新时使用整个训练数据集来计算梯度，保证了梯度估计的准确性和参数更新的稳定性。通过具体数据的举例说明，可以清楚地看到梯度下降优化如何逐步逼近最优解。在实际应用中，选择合适的学习率和迭代次数，可以有效地优化模型参数，使模型达到最佳性能。
复制链接

扫一扫

专栏目录