随机梯度下降_随机梯度下降求二元函数最小值-CSDN博客

本文链接：https://blog.csdn.net/baiyu9821179/article/details/53489927

随机梯度下降( stochastic gradient descent )

简单的介绍一下什么是随机梯度下降，为什么要用随机梯度下降这个方法。

1.背景

在我们进行深度学习的时候，对于神经网络的输出结果，我们需要知道结果对不对，以及每个神经元的阈值和权重对不对，对于以及我调整一下权重和阈值，神经网络的输出结果和我们预期的输出结果会更接近还是误差更大。如果更接近，那么我们可以继续调整权重和阈值，让神经网络的输出结果等于预期。那么我们如何进行定量的分析呢？不能只依靠感觉，这个时候，我们引入函数

C (w, b) \equiv 1 2 n \sum x ∥ y (x) - a ∥ 2 . (1)

$\begin{eqnarray} C(w,b) \equiv \frac{1}{2n} \sum_x \| y(x) - a\|^2. \tag{1}\end{eqnarray}$ 其中

y(x) $y(x)$ 代表我们预期的输出结果，比如说，一个识别手写阿拉伯数字的神经网络，我们网络的输出就是一个10维的向量，比如

(1,0,0,0,0,0,0,0,0,0) $(1,0,0,0,0,0,0,0,0,0)$ 代表0，

(0,1,0,0,0,0,0,0,0,0)代表1 $(0,1,0,0,0,0,0,0,0,0)代表1$ ，而a代表一个神经网络实际输出的结果,

w $w$ 和

b $b$ 就分别代表了权重和阈值。也就是说，我们如果想要让一个神经网络的结果更准确，就需要找到合适的

w $w$ ,

b $b$ ，让C更小。即求函数C的最小值。

也就是说，我们现在是要求一个函数的最小值，让我们仅仅从数学方面思考，如何求解一个函数的最小值。假设有一个函数 $C(v)$ ,而这个函数有两个变量 $v_1$ , $v_2$ ，首先想到的就是微积分，假如只有2个变量，我们就要求出函数的二阶偏导，然后再令二阶偏导等于0，算出几个点，再判断这几个点哪个是最大值，哪个是最小值，哪个是鞍点。可是问题是，我们处理的数据大部分都是多维的，甚至达到百万级别，所以用微积分的话，那就很难算出来了。因此我们就需要梯度下降的方法

2.梯度下降的思想

我们先假设在求一个二元函数的最小值，它的图像如图所示：

这里写图片描述

假设我们在这个图像曲面上放置一个小球，它受到重力影响，肯定会往下滑落，而最终停止的地方，就是整个函数的最小值，这个就是梯度下降的大致思想。为了更清楚的说明这个问题, 我们把 $v_1$ 在 $v_1$ 方向移动 $\Delta v_1$ ，在 $v_2$ 在 $v_2$ 方向移动 $\Delta v_2$ ，根据微积分，我们可以得到:

Δ C \approx \partial C \partial v 1 Δ v 1 + \partial C \partial v 2 Δ v 2 . (2)

$\begin{eqnarray} \Delta C \approx \frac{\partial C}{\partial v_1} \Delta v_1 + \frac{\partial C}{\partial v_2} \Delta v_2. \tag{2}\end{eqnarray}$ 现在我们需要找到合适的

v1 $v_1$ 和

v2 $v_2$ ，可以让

ΔC $\Delta C$ 小于0，这样我们才能让小球一直往最低点前进。因为函数C的梯度为：

\nabla C \equiv (\partial C \partial v 1, \partial C \partial v 2) T . (3)

$\begin{eqnarray} \nabla C \equiv \left( \frac{\partial C}{\partial v_1}, \frac{\partial C}{\partial v_2} \right)^T. \tag{3}\end{eqnarray}$ 因此(3)可以改写成

Δ C \approx \nabla C \cdot Δ v . (4)

$\begin{eqnarray} \Delta C \approx \nabla C \cdot \Delta v. \tag{4}\end{eqnarray}$ 那么我们如何选择

Δv $\Delta v$ 令

∇C $\nabla C$ 为负数呢？我们可以选择令:

Δ v = - η \nabla C (5)

$\begin{eqnarray} \Delta v = -\eta \nabla C \tag{5}\end{eqnarray}$ 原式可变为

ΔC≈−η∇C⋅∇C=−η∥∇C∥2 $\Delta C \approx -\eta \nabla C \cdot \nabla C = -\eta \|\nabla C\|^2$ . 因为

∥∇C∥2≥0 $\| \nabla C \|^2 \geq 0$ , 这就保证了

ΔC≤0 $\Delta C \leq 0$ 。那么

−η $-\eta$ 怎么求呢？因为

Δv=−η∇C $\Delta v=-\eta\nabla C$ ，因此

−η=∥Δv∥ ∥∇C|∥ $-\eta=\frac{ \|\Delta v\|\ }{ \|\nabla C|\|}$ ,我们可以事先规定

∥Δv∥ $\|\Delta v \|\$ 的大小，然后求出

∥ ∇C∥ $\|\ \nabla C \|\$ 。那么

−η ${-\eta}$ 的值就求出来了。

3.随机梯度下降

根据前面的介绍，我们已经可以算出最小点在哪里了(理论上)，但是随机梯度下降还有一些问题，我在这里说两个：（１）容易陷入局部极小值，在前面的图中，我们只画出了一个全局极小值点，所以梯度下降可以直接找到最小点，但是在实际中，函数会有很多局部极小值，因此梯度下降可能会停止在局部极小值中，而不是全局极小值。（２）计算量太大，注意到式(1)，我们计算所有输入图像的cost function，然后取平均，这样计算量太大了。因此，我们可以通过计算一个小样本里的 $\nabla C_x$ 来估计 $\nabla C$ 的值。我们随机选取输入 $X_1, X_2, \ldots, X_m$ , 把它们看做是一个迷你批(mini-batch). 样本数 $m$ 要足够大以致于我们可以估计出 $\nabla C_{X_j}$ 如下式所示：

\sum m j = 1 \nabla C X j m \approx \sum x \nabla C x n = \nabla C, (6)

$\begin{eqnarray} \frac{\sum_{j=1}^m \nabla C_{X_{j}}}{m} \approx \frac{\sum_x \nabla C_x}{n} = \nabla C, \tag{6}\end{eqnarray}$ 两边互换一下，即可得：

\nabla C \approx 1 m \sum j = 1 m \nabla C X j, (7)

$\begin{eqnarray} \nabla C \approx \frac{1}{m} \sum_{j=1}^m \nabla C_{X_{j}}, \tag{7}\end{eqnarray}$ 应用到神经网络上，可以得到下式：

w k b l \to \to w' k = w k - η m \sum j \partial C X j \partial w k b' l = b l - η m \sum j \partial C X j \partial b l, (8) (9)

$\begin{eqnarray} w_k & \rightarrow & w_k' = w_k-\frac{\eta}{m} \sum_j \frac{\partial C_{X_j}}{\partial w_k} \tag{8}\\ b_l & \rightarrow & b_l' = b_l-\frac{\eta}{m} \sum_j \frac{\partial C_{X_j}}{\partial b_l}, \tag{9}\end{eqnarray}$ 其中

w $w$ 和

b $b$ 分别代表权值和阈值。当我们遍历完所有迷你批以后，接着在剩下的样本中选取第二个迷你批，直到穷尽所有样本，此时称为完成一次epoch。然后继续上述过程。

参考资料：《Neural Networks and Deep Learning》 Michael Nielsen