随机梯度下降（Stochastic Gradient Descent, SGD）计算实例详解，帮助你理解SGD算法！

最新推荐文章于 2024-08-05 01:10:28 发布

进击的水告

最新推荐文章于 2024-08-05 01:10:28 发布

阅读量596

点赞数 12

分类专栏：优化器文章标签：机器学习人工智能神经网络

本文链接：https://blog.csdn.net/qq_35382160/article/details/140501556

版权

优化器专栏收录该内容

2 篇文章 0 订阅

订阅专栏

随机梯度下降（Stochastic Gradient Descent, SGD）计算实例详解，帮助你理解SGD算法！

一、算法原理：

网上可以参见的关于SGD算法的原理已经有很多，建议大家先搞懂梯度这个概念，再去理解，这里就不再赘述。

我们主要结合公式和具体的案例来分析，SGD到底是如何计算梯度并对参数进行更新的，在此之前，需要大家对复合函数求偏导、链式求导法则有一定了解，否则在计算过程中可能会难以理解。

二、计算实例：

1.数据集

假设我们有如下的数据集，共包含了三个数据：

$x, y)=[{(1, 2), (2, 3), (3, 4)}]$

不难看出， $y = x + 1$ ，下面我们来看SGD在网络训练中是如何做的。

2.模型构建

为了得到输入数据和输出数据之间的关系，我们需要构建一个简单的线性回归模型：

$\theta_0 + \theta_1 x$

$x$ ， $y$ 分别是模型的输入和输出， $\theta_0$ 和 $\theta_1$ 则是网络需要通过训练学习的参数。

我们的目标是通过随机梯度下降来找到最佳的参数 $\theta_0$ 和 $\theta_1$ ，使得模型预测的结果与真实数据尽可能接近。

3.损失函数

在这里我们选择均方误差（MSE）作为损失函数：

$=\frac{1}{2n} \sum_{i=1}^{n} (\hat{y}^{(i)} - y^{(i)})^2= \frac{1}{2n} \sum_{i=1}^{n} (\theta_0 + \theta_1 x^{(i)} - y^{(i)})^2$

其中 $\hat{y}^{(i)}$ 是网络预测输出， $y^{(i)}$ 是真实值，n是样本数量。（注意：公式中的分母我这里采用 $2 n$ 是为了方便后续求导计算）

4.SGD计算过程

4.1 初始化

$\theta_0 = 0$ 和 $\theta_1 = 0$ ，选择学习率 $\eta = 0.01$ 。

4.2 选择一个样本计算预测值

假设我们选择的样本是 $(1, 2)$

$\hat{y} = \theta_0 + \theta_1 \cdot 1 = \theta_0 + \theta_1$

4.3 计算损失

$J(\theta_0, \theta_1) = \frac{1}{2} (\theta_0 + \theta_1 x - y)^2= \frac{1}{2} (\theta_0 + \theta_1 - 2)^2$

4.4 计算梯度

$\frac{\partial J(\theta_0, \theta_1)}{\partial \theta_0} = (\theta_0 + \theta_1 x - y)=\theta_0 + \theta_1 - 2$

$\frac{\partial J(\theta_0, \theta_1)}{\partial \theta_1} = (\theta_0 + \theta_1 x - y) \cdot x=(\theta_0 + \theta_1 - 2) \cdot 1$

4.5 更新参数

$\theta_0next= \theta_0 - 0.01 \cdot (\theta_0 + \theta_1 - 2)=0.02$

$\theta_1next := \theta_1 - 0.01 \cdot (\theta_0 + \theta_1 - 2) \cdot 1=0.02$

继续选择下一个样本，重复以上步骤，直到达到停止条件。

通过这样的迭代过程，随机梯度下降会逐步调整 $\theta_0$ 和 $\theta_1$ ，使得模型的预测结果与真实值更加接近，从而实现对线性模型的优化训练。

5.带有动量的SGD计算过程

通过第4小节，我们通过一个简单的回归分析，了解了SGD算法是怎么更新网络参数的，接下来我们继续通过上一个小节中的回归分析例子看一下带有动量的SGD算法是如何更新网络参数的。

5.1初始化参数和动量变量：

初始化参数 $\theta_0$ 和 $\theta_1$ 为任意值，例如 $\theta_0 = 0$ ， $\theta_1 = 0$
初始化动量变量 $v_0 = 0$ 和 $v_1 = 0$ ，这些变量将存储之前的梯度信息。
选择一个学习率 $\eta$ ，例如 $\eta = 0.01$
选择动量系数 $\beta$ ，通常选择一个介于 0 到 1 之间的值，例如 $\beta = 0.9$