随机梯度下降SGD(理论、公式、代码)

随机梯度下降(SGD)是一种用于优化机器学习模型的非常流行的算法。它特别适用于大规模数据集,因为它在每次迭代中仅使用一小部分数据。这使得SGD比批量梯度下降(使用整个数据集的梯度下降)更快、更高效。接下来,我将从理论、公式和代码示例这三个方面来介绍SGD优化器。

理论

SGD的核心思想是在每次迭代中随机选择一个样本(或一小批样本)来估计梯度,而不是使用整个数据集。这样做的优点是计算效率高,尤其是当数据集很大时。SGD也能够逃离局部最小值,因为随机性引入了一定的噪声,有助于模型探索更多的参数空间。

公式

SGD的更新公式如下:

θ t + 1 = θ t − η ∇ f i ( θ t ) \theta_{t+1} = \theta_t - \eta \nabla f_i(\theta_t) θt+1=θtηfi(θt)

其中:

  • θ \theta θ 表示模型参数。
  • t t t表示当前迭代次数。
  • η \eta η 是学习率,控制着步长的大小。
  • f i f_i fi 是损失函数,针对第 i i i 个数据点或数据批次。

这个公式表示,在每次迭代中,我们计算当前参数 θ t \theta_t θt 下的梯度 ∇ f i ( θ t ) \nabla f_i(\theta_t) fi(θt),然后沿梯度的反方向更新参数,以减小损失函数的值。

代码示例

接下来,我将用Python提供一个简单的SGD优化器的代码示例。这个示例演示了如何使用SGD来优化一个简单的线性回归模型。

import numpy as np

def sgd_update(parameters, gradients, learning_rate):
    """
    对模型参数进行一次SGD更新。
    :param parameters: 当前的模型参数,numpy数组。
    :param gradients: 对应于这些参数的梯度,numpy数组。
    :param learning_rate: 学习率,控制更新的步长。
    :return: 更新后的模型参数。
    """
    parameters -= learning_rate * gradients
    return parameters

# 示例: 线性回归模型 y = wx + b
# 损失函数:min((y - y')^2)
# 梯度:gead_w = 2x(wx + b - y), grad_b = 2(wx + b - y)
w, b = 0.0, 0.0  # 初始化参数
learning_rate = 0.01  # 设置学习率

# 假设我们有一些训练数据
x_train = np.array([1, 2, 3, 4])
y_train = np.array([2, 4, 6, 8])

# 执行SGD优化
for epoch in range(100):  # 训练100轮
    for x, y in zip(x_train, y_train):
        # 计算当前参数下的梯度
        grad_w = 2 * x * (w * x + b - y)
        grad_b = 2 * (w * x + b - y)
        
        # 使用SGD更新参数
        w = sgd_update(w, grad_w, learning_rate)
        b = sgd_update(b, grad_b, learning_rate)

print(f"训练后的参数: w={w}, b={b}")

这段代码首先定义了一个名为sgd_update的函数,该函数根据给定的梯度和学习率更新模型参数。接着,我们通过模拟一个简单的线性回归问题,并使用SGD来更新模型参数(即权重w和偏差b),演示了SGD在实际中的应用。在每次迭代中,我们遍历训练数据,计算梯度,并更新参数。这个过程重复进行,直到模型参数收敛到最优解。

  • 20
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值