随机梯度下降SGD（理论、公式、代码）

最新推荐文章于 2025-03-13 19:07:29 发布

m0_48923489

最新推荐文章于 2025-03-13 19:07:29 发布

阅读量1.1w

点赞数 27

文章标签：人工智能 python 深度学习

本文链接：https://blog.csdn.net/m0_48923489/article/details/136828738

版权

随机梯度下降（SGD）是一种用于优化机器学习模型的非常流行的算法。它特别适用于大规模数据集，因为它在每次迭代中仅使用一小部分数据。这使得SGD比批量梯度下降（使用整个数据集的梯度下降）更快、更高效。接下来，我将从理论、公式和代码示例这三个方面来介绍SGD优化器。

理论

SGD的核心思想是在每次迭代中随机选择一个样本（或一小批样本）来估计梯度，而不是使用整个数据集。这样做的优点是计算效率高，尤其是当数据集很大时。SGD也能够逃离局部最小值，因为随机性引入了一定的噪声，有助于模型探索更多的参数空间。

公式

SGD的更新公式如下：

$\theta_{t+1} = \theta_t - \eta \nabla f_i(\theta_t)$

其中：

$\theta$ 表示模型参数。
$t$ 表示当前迭代次数。
$\eta$ 是学习率，控制着步长的大小。
$f_i$ 是损失函数，针对第 $i$ 个数据点或数据批次。

这个公式表示，在每次迭代中，我们计算当前参数 $\theta_t$ 下的梯度 $\nabla f_i(\theta_t)$ ，然后沿梯度的反方向更新参数，以减小损失函数的值。

代码示例

接下来，我将用Python提供一个简单的SGD优化器的代码示例。这个示例演示了如何使用SGD来优化一个简单的线性回归模型。

import numpy as np

def sgd_update(parameters, gradients, learning_rate):
    """
    对模型参数进行一次SGD更新。
    :param parameters: 当前的模型参数，numpy数组。
    :param gradients: 对应于这些参数的梯度，numpy数组。
    :param learning_rate: 学习率，控制更新的步长。
    :return: 更新后的模型参数。
    """
    parameters -= learning_rate * gradients
    return parameters

# 示例: 线性回归模型 y = wx + b
# 损失函数：min((y - y')^2)
# 梯度：gead_w = 2x(wx + b - y)， grad_b = 2(wx + b - y)
w, b = 0.0, 0.0  # 初始化参数
learning_rate = 0.01  # 设置学习率

# 假设我们有一些训练数据
x_train = np.array([1, 2, 3, 4])
y_train = np.array([2, 4, 6, 8])

# 执行SGD优化
for epoch in range(100):  # 训练100轮
    for x, y in zip(x_train, y_train):
        # 计算当前参数下的梯度
        grad_w = 2 * x * (w * x + b - y)
        grad_b = 2 * (w * x + b - y)
        
        # 使用SGD更新参数
        w = sgd_update(w, grad_w, learning_rate)
        b = sgd_update(b, grad_b, learning_rate)

print(f"训练后的参数: w={w}, b={b}")

这段代码首先定义了一个名为sgd_update的函数，该函数根据给定的梯度和学习率更新模型参数。接着，我们通过模拟一个简单的线性回归问题，并使用SGD来更新模型参数（即权重w和偏差b），演示了SGD在实际中的应用。在每次迭代中，我们遍历训练数据，计算梯度，并更新参数。这个过程重复进行，直到模型参数收敛到最优解。