31. 随机梯度下降法：优化与实现

哈哈拉拉hxl

已于 2024-07-10 16:16:44 修改

阅读量385

点赞数 3

文章标签：人工智能

于 2024-07-10 16:16:10 首次发布

本文链接：https://blog.csdn.net/qq_41238579/article/details/139899980

版权

在深度学习中，梯度下降法（Gradient Descent）是最常用的模型参数优化方法。然而，传统的梯度下降法（Full Batch Learning）存在一些缺点，例如训练时间过长和容易陷入局部最小值。为了解决这些问题，随机梯度下降法（Stochastic Gradient Descent，简称SGD）应运而生。

传统梯度下降法的问题

1. 训练时间长：传统梯度下降法需要使用所有训练数据来计算梯度，因此数据量大时耗时严重。
2. 容易陷入局部最小值：复杂的损失函数可能会导致算法在局部最小值附近来回震荡，无法快速收敛。
3. 对初始值敏感：初始值选择不当可能导致算法被卡在局部最小值。

随机梯度下降法的基本思想

SGD每次迭代仅使用一个样本来计算梯度，而不是全数据集。这种方法的优势在于：
1. 计算速度快：每次迭代只需计算一个样本的梯度，速度比传统方法快很多。
2. 避免局部最小值：因为每次更新参数只使用一个样本，随机性使得算法不容易陷入局部最小值。
3. 更易实现和调整：每个样本的梯度可以分别计算，并行处理更加高效。

SGD的优缺点

优点

1. 速度快：每次迭代只需计算一个样本的梯度。
2. 避免局部最小值：随机性使得算法更有可能跳出局部最小值。
3. 实现简单：便于在实际应用中实现和调整。

缺点

1. 收敛不稳定：每次迭代梯度都会有噪声，可能导致收敛不稳定。
2. 方差较大：每次更新参数只使用一个样本的梯度，可能导致算法方差较大，难以收敛。

动态学习率

为了提高SGD的收敛性，可以使用动态学习率。常见的动态学习率策略包括：

1. 反比例学习率：初始学习率随着迭代次数增加而减小。

2. 反比例平方学习率：类似反比例学习率，但减小速度更快。
\[
\alpha_t = \frac{\alpha_0}{1 + k \cdot t^2}
\]
3. 指数衰减学习率：学习率以指数形式衰减。
\[
\alpha_t = \alpha_0 \cdot e^{-\lambda t}
\]

实现示例

下面是使用Python实现随机梯度下降法的示例代码：


import numpy as np

def stochastic_gradient_descent(X, y, lr=0.01, epochs=1000):
    m, n = X.shape
    w = np.zeros(n)
    b = 0
    for epoch in range(epochs):
        for i in range(m):
            random_index = np.random.randint(m)
            xi = X[random_index:random_index+1]
            yi = y[random_index:random_index+1]
            gradient_w = 2 * xi.T.dot(xi.dot(w) + b - yi)
            gradient_b = 2 * (xi.dot(w) + b - yi)
            w = w - lr * gradient_w
            b = b - lr * gradient_b
        # 可选：动态学习率调整
        lr = lr / (1 + epoch / epochs)
    return w, b

# 示例数据
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5]])
y = np.array([5, 7, 9, 11])

# 调用SGD函数
w, b = stochastic_gradient_descent(X, y)
print("权重:", w)
print("偏置:", b)

总结

SGD通过每次迭代使用一个随机样本来计算梯度，从而加快了计算速度并避免陷入局部最小值。动态学习率的使用可以进一步提高SGD的收敛性。在实际应用中，SGD已成为深度学习领域最常用的优化算法之一。希望通过本文，大家能够深入理解SGD的基本思想和实现，并在实际项目中灵活应用。

哈哈拉拉hxl

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
31. 随机梯度下降法：优化与实现

SGD通过每次迭代使用一个随机样本来计算梯度，从而加快了计算速度并避免陷入局部最小值。动态学习率的使用可以进一步提高SGD的收敛性。在实际应用中，SGD已成为深度学习领域最常用的优化算法之一。希望通过本文，大家能够深入理解SGD的基本思想和实现，并在实际项目中灵活应用。
复制链接

扫一扫