梯度下降和随机梯度下降为什么能下降？

最新推荐文章于 2024-07-31 14:47:45 发布

AI周红伟

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量1.6k

点赞数

梯度下降和随机梯度下降为什么能下降？

标签：深度学习梯度下降 SGD

2016-02-22 19:19 663人阅读评论(1) 收藏举报

本文章已收录于：

分类：

Deep Learning（7）

作者同类文章 X

首先，我们假设cost function为：

$C(w,b)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$

其中，w,b为网络参数，x为训练样本，n为样本数量，y(x)为x的标签，a为网络输出。

我们训练的目的就是让cost function取得最小。为了看起来方便，我们令 $v=[w,b]$ ,则：

$C(v)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$ （1）

为了方便理解，我们先假设v只有2维 $v=[v_{1}^{ },v_{2}^{ }]$ ,我们要做的就是通过不断调整 $v_{1}^{ },v_{2}^{ }$ 使得 $C(v)$ 最小。可以通过下图理解，我们为小球选择一个方向，让它往下滚，直到小球滚到“山谷”。

我们令 $v$ 在 $v_{1}^{}$ 方向改变 $\Delta v_{1}^{}$ ，在 $v_{2}^{}$ 方向改变 $\Delta v_{2}^{}$ ，由微积分知识可知：

$\Delta C\approx \frac{\partial C}{\partial v_{1}^{ }}\Delta v_{1}^{}+\frac{\partial C}{\partial v_{2}^{ }}\Delta v_{2}^{ }$ （2）

即每次 $C$ 改变 $\Delta C$ ，改变后为 $C+\Delta C$ 。为了使 $C$ 不断变小， $\Delta C$ 必须为负。

令 $\Delta v=(\Delta v_{1}^{ },\Delta v_{2}^{ })^{T}$ ，（3）

$\triangledown C=(\frac{\partial C}{\partial v_{1}^{ }},\frac{\partial C}{\partial v_{2}^{ }})$ （4）

(注意这里的上三角和下三角)

则由（2）、（3）、（4）有：

$\Delta C\approx \triangledown C.\Delta v$ （5）

我们的目标是让 $\Delta C$ 为负，假设：

$\Delta v=-\eta \triangledown C$ (6)

其中 $\eta$ 是一个很小的正数(实际上就是我们所说的学习率)，那么，由(5)和(6)：

$\Delta C\approx -\eta \left \|\triangledown C \right \|^{2}$ (7)

由于 $\left \| \triangledown C \right \|^{2}\geqslant 0$ ，所以 $\Delta C\leqslant 0$ ,那么， $C$ 就会一直往减小的方向走，即小球一直往“山谷”滚下去。

我们训练的目的是得到模型参数 $v$ ，由（6）知 $v$ 的更新公式为：

$v=v-\eta \triangledown C$ (8)

如果将 $v$ 重新看成 $v=[w,b]$ ，那么：

$w_{k}^{ }\rightarrow w_{k}^{{}'}=w_{k}-\eta \frac{\partial C}{\partial w_{k}}$ (9)

$b_{l}^{ }\rightarrow b_{l}^{{}'}=b_{l}-\eta \frac{\partial C}{\partial b_{l}}$ (10)

通过不断计算 $\triangledown C$ ，更新参数 $v$ ，最终得到 $C(v)$ 最小(或足够小)。

实际应用中，应用梯度下降存在很多难题。我们回到cost function：

$C(w,b)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$ ，我们写成这个形式：

$C=\frac{1}{n}\sum_{x}^{ }C_{x}$ （11）

也就是说：

$C_{x}\equiv \frac{\left \| y(x)-a \right \|^{2}}{2}$ （12）

其中（12）是对于其中一个训练样本而言的cost funtion。

为了计算 $\triangledown C$ ，我们要对每一个样本计算 $\triangledown C_{x}$ ，然后，计算平均：

$\triangledown C= \frac{1}{n}\sum_{x}^{ }\triangledown C_{x}$ （13）

因此，当训练样本很多时，计算(13)要很长时间。

由此引出的一个想法叫随机梯度下降(stochastic gradient descent,SGD)，它能加快学习的速度。

这个想法的idea是在训练样本中随机的选择一批样本，然后通过该批样本的各 $\triangledown C_{x}$ ，通过（13）计算 $\triangledown C$ 。

（此时公式（13）中的n为该批样本的数量）。

为了使随机梯度下降法更有效，SGD随机选择训练样本中的一个小样本集，大小为m，我们记这些样本为：

$X_{1},X_{2},...,X_{m}$ 。这样一批样本称为mini-batch。

假设m足够大，那么 $\triangledown C_{X_{j}}$ 的平均大约等于 $\triangledown C_{x}$ 的平均，即：

$\frac{\sum_{j=1}^{m}\triangledown C_{X_{j}}}{m}\approx \frac{\sum_{x}^{ }\triangledown C_{x}}{n}= \triangledown C$ （14）

其中第二项的n为训练样本总数，由此可得：

$\triangledown C\approx \frac{1}{m}\sum_{j=1}^{m}\triangledown C_{X_{j}}$ （15）

那么，w和b的更新公式变为：

$w_{k}\rightarrow w_{k}^{{}'}=w_{k}-\frac{\eta }{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial w_{k}}$ （16）

$b_{l}\rightarrow b_{l}^{{}'}=b_{l}-\frac{\eta }{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial b_{l}}$ （17）

训练完一个mini-batch后，就取另一个mini-batch，直到训练完整个训练集，这就是一个epoch。

有时候，我们可能不知道样本数量n(或者m),我们可以不求平均，直接用和计算。我们看（16）和（17）,去掉m实际上可以看作增大学习率。实际应用中那个效果更好看具体问题而定。

最后，我们总结一下随机梯度下降的过程：

（1）初始化网络参数；

（2）在训练集中取mini-batch $X_{1},X_{2},...,X_{m}$ ，计算 $\frac{1}{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial w_{k}}$ ， $\frac{1}{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial b_{l}}$ ；

（3）由公式（16）和（17）更新参数w，b；

（4）重复（2）-（3），直到C最小(足够小)；

更多知识可以参考这里。

AI周红伟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫