初探梯度下降之随机梯度下降（SGD）-CSDN博客

本文链接：https://blog.csdn.net/kwame211/article/details/104336538

随机梯度下降算法

先解释一些概念。

1.什么是梯度下降

我们先从一张图来直观解释这个过程。

如上图假设这样一个场景：一个人被困在山上，需要从山上下来，但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是， 以他当前的所处的位置为基准，寻找方向，然后朝着山的高度下降的地方走。
但是因为选择方向的原因， 我们找到的的最低点可能不是真正的最低点。如图所示，黑线标注的路线所指的方向并不是真正的地方。
那么问题来了？
既然是选择一个方向下山，那么这个方向怎么选？每次该怎么走？
先说选方向，在算法中是以随机方式给出的，这也是造成有时候走不到真正最低点的原因。如果选定了方向，以后每走一步，都是选择最陡的方向，直到最低点。
总结起来就一句话： 随机选择一个方向，然后每次迈步都选择最陡的方向，直到这个方向上能达到的最低点。

其实梯度下降的过程即可类比与上述描述的下山的过程。
我们可以这样理解：首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向。
所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。

2.那什么是梯度?求取梯度有什么用？

还是从例子入手：

上图就是一个求梯度的实例，由这个实例我们可以看到， 梯度就是分别对每个变量进行微分，然后用逗号分割开，梯度是用<>包括起来，说明梯度其实一个向量。
在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率；在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向。
这也就告诉我们为什么需要求梯度。我们需要到达山底，就需要在每一步观测到此时最陡峭的地方， 梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向。所以我们只要沿着梯度的方向一直走，就能走到局部上的一个最低点。

3.我们使用梯度下降来做什么？有什么优缺点？

a. 在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法(Gradient Descent, GD)。
b.优缺点
优点：效率。在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，可以在很多大规模数据集上应用。
缺点：求解的是局部最优值，即由于方向选择的问题，得到的结果不一定是全局最优步长选择，过小使得函数收敛速度慢，过大又容易找不到最优解。

进入一个分支~

随机梯度算法

概念

随机梯度下降（SGD）是一种简单但非常有效的方法，多用用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。并且SGD已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题。
SGD既可以用于分类计算，也可以用于回归计算。
分类和回归的实现可参考：
（https://blog.csdn.net/qq_38150441/article/details/80533891）

SGD算法是从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。（划个重点：每次迭代使用一组样本。）
为什么叫随机梯度下降算法呢？这里的随机是指每次迭代过程中，样本都要被随机打乱，这个也很容易理解，打乱是有效减小样本之间造成的参数更新抵消问题。

分类

随机梯度下降算法通常还有三种不同的应用方式，它们分别是SGD、Batch-SGD、Mini-Batch SGD
a.SGD是最基本的随机梯度下降，它是指每次参数更新只使用一个样本，这样可能导致更新较慢；
b.Batch-SGD是批随机梯度下降，它是指每次参数更新使用所有样本，即把所有样本都代入计算一遍，然后取它们的参数更新均值，来对参数进行一次性更新，这种更新方式较为粗糙；
c.Mini-Batch-SGD是小批量随机梯度下降，它是指每次参数更新使用一小批样本，这批样本的数量通常可以采取trial-and-error的方法来确定，这种方法被证明可以有效加快训练速度

运用

训练模型的目的是使得目标函数达到极小值。对于一个深度神经网络，它的参数数目比较庞大，因此目标函数通常是一个包含很多参量的非线性函数。对于这个非线性函数，我们采用的是随机梯度下降算法来对参数进行更新。具体步骤如下：
（1）对网络参数进行初始化，一般情况下，权重初始化为均值是0，方差为0.01的高斯分布随机值，而偏置统一初始化为0；
（2）将参数代入网络计算前馈输出值，从而可以根据已有的目标标签得出目标函数值；
（3）根据目标函数值以及各参数与目标函数所构成的树结构，运用后向传播算法计算出每个参数的梯度；
（4）设置学习率大小（随着迭代的步骤增多，学习率通常要逐渐减小，这样可以有效避免训练中出现误差震荡情况），进行参数更新，最一般的更新方式是新参数=旧参数-学习率×梯度；
（5）重复进行第2~4步，直到网络收敛为止。