吴恩达改善深层神经网络章节笔记（二）——优化算法

奔跑的chanchanchan

已于 2022-03-24 13:02:06 修改

阅读量335

点赞数

分类专栏：学习笔记文章标签：深度学习

于 2021-08-10 09:43:43 首次发布

本文链接：https://blog.csdn.net/baoli8425/article/details/118607407

版权

学习笔记专栏收录该内容

12 篇文章 3 订阅

订阅专栏

吴恩达改善深层神经网络章节笔记（二）——优化算法）

1. Mini-batch梯度下降 (Mini-batch Gradient Descent)
2. 指数加权平均 (Exponentially Weighted Averages)
3. 动量梯度下降法 (Gradient Descent with Momentum)
4. RMSprop (Root Mean Square Rrop)
- 4.1 算法实现
- 4.2 原理解释
5. Adam优化算法 (Adam Optimization Algorithm)
- 5.1 算法实现
- 5.2 超参数的选择
6. 学习率衰减 (Learning Rate Decay)
- 6.1 概念解释
- 6.2 学习率衰减的方法
7. 局部最优的问题 (The Problem of Local Optima)

视频课程链接：
https://www.bilibili.com/video/BV1FT4y1E74V?
笔记参考链接：
https://blog.csdn.net/weixin_36815313/article/details/105728919

1. Mini-batch梯度下降 (Mini-batch Gradient Descent)

机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到最合适的那一个，所以优化算法能够帮助你快速训练模型。
但是深度学习没有在大数据领域发挥最大的效果，我们可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练，训练速度很慢。因此你会发现，使用快速好用的优化算法能够大大提高你和团队的效率。那么，我们首先来谈谈mini-batch梯度下降法。

1.1 什么是mini-batch？

向量化能够有效地对所有 $m$ 个样本进行计算，允许你处理整个训练集，而无需某个明确的公式。所以我们要把所有的训练样本放大一个巨大的矩阵 $X$ 当中去，即 $X=[x^{(1)}x^{(2)}x^{(3)}\cdots x^{(m)}]$ 。输出 $Y$ 也是如此，即 $Y=[y^{(1)}y^{(2)}y^{(3)}\cdots y^{(m)}]$ 。所以 $X$ 的维数是 $n_x,m)$ ， $Y$ 的维数是 $(1, m)$ ，向量化能够让你相对较快地处理所有 $m$ 个样本。
但是如果 $m$ 很大的话，处理速度仍然缓慢。举例来说，如果 $m$ 是500万，在对整个训练集执行梯度下降法时，你需要做的是处理这500万个训练样本，然后才能进行一步梯度下降法。接着你需要再重新处理这500万个训练样本，才能进行下一步梯度下降法。所以如果你在处理完500万个样本的训练集之前，先让梯度下降法处理一部分，你的算法速度会更快。
你可以把训练集分割为小一点的子集训练，这些子集被取名为mini-batch。假设每一个子集中只有1000个样本，把其中的 $x^{(1)}$ 到 $x^{(1000)}$ 取出来，将其称为第一个子训练集，记作 $X^{\{1\}}$ ，然后你再取出接下来1000个样本，即从 $x^{(1001)}$ 到 $x^{(2000)}$ ，记作 $X^{\{2\}}$ ，然后再取1000个样本，以此类推，最后一个mini-batch记作 $X^{\{5000\}}$ 。如果你的训练样本一共有500万个，那么每个mini-batch都有1000个样本，也就是说，你有5000个mini-batch。
在这里插入图片描述

对 $Y$ 也要进行相同处理，相应地拆分 $Y$ 的训练集，从 $y^{(1)}$ 到 $y^{(1000)}$ 为第一个子集，记作 $Y^{\{1\}}$ ，然后从 $y^{(1001)}$ 到 $y^{(2000)}$ 记作 $Y^{\{2\}}$ ，以此类推，直到 $Y^{\{5000\}}$ 。
在这里插入图片描述

mini-batch的数量 $t$ 组成了 $X^{(t)}$ 和 $Y^{(t)}$ ，这就是1000个训练样本，包含相应的输入输出对。如果 $X^{\{1\}}$ 是一个有1000个样本的训练集，或者说是1000个 $x$ 值，所以维数应该是 $n_x,1000)$ ，同理， $X^{\{2\}}$ 的维数应该是 $n_x,1000)$ 。以此类推，所有的子集维数都是 $n_x,1000)$ ，而 $Y^{\{t\}}$ 的维数都是 $(1, 1000)$ 。
mini-batch梯度下降法，指的是每次同时处理的单个的mini-batch，即 $X^{\{t\}}$ 和 $Y^{\{t\}}$ ，而不是同时处理全部的 $X$ 和 $Y$ 训练集。

1.2 Mini-batch梯度下降法的实现流程

假设训练集中500万个样本，划分成5000个mini-batch，即每个mini-batch中包含1000个训练样本。在训练集上运行mini-batch梯度下降法，因为我们有5000个mini-batch，其中各有1000个样本，因此使用for循环for t in range(1,5000)，对5000个mini-batch $X^{\{t\}}$ 和 $Y^{\{t\}}$ 执行一步梯度下降法。
首先，对输入 $X^{\{t\}}$ 执行前向传播(Forward propagation)。因为现在你需要处理一个mini-batch，而不是一个样本集，因此前向传播过程中的输入 $X$ 变成了 $X^{\{t\}}$ ，即 $Z^{[1]}=W^{[1]}X^{\{t\}}+b^{[1]}$ $A^{[1]}=g^{[1]}(Z^{[1]})$ 之所以用大写的 $Z$ ，是因为这是一个向量，以此类推，直到得到最终的预测值 $\hat{y}$ 。 $\hat{y}=A^{[L]}=g^{[L]}(Z^{[L]})$ 注意这里你需要用到一个向量化的执行命令，这个向量化的执行命令，一次性处理1000个而不是500万个样本。
接下来需要计算损失成本函数 $J$ ，因为子集规模是1000，因此 $J^{\{t\}}=\frac1{1000}\sum_{i=1}^lL(\hat{y}^{(i)},y^{(i)})$ 说明一下， $L(\hat{y}^{(i)},y^{(i)})$ 指的是来自于某一项mini-batch $X^{\{t\}}$ 和 $Y^{\{t\}}$ 中的样本。
如果你用到了正则化，也可以添加正则化项，即 $J^{\{t\}}=\frac1{1000}\sum_{i=1}^lL(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2*1000}\sum_l||w^{[l]}||^2_F$ 接下来执行反向传播(Back propagation)来计算 $J^{\{t\}}$ 的梯度，这里使用 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 。然后根据 $d W$ 和 $d b$ 更新 $W$ 和 $b$ ，即 $W^{[l]}:=W^{[l]}-\alpha dW^{[l]}$ $b^{[l]}:=b^{[l]}-\alpha db^{[l]}$ 上述过程是使用mini-batch梯度下降法训练样本的一步，也可被称为进行一代(1 epoch)的训练。一代意味着遍历了一次训练集，也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播。
使用batch梯度下降法，一次遍历训练集只能让你做一个梯度下降，而使用mini-batch梯度下降法，遍历一次训练集能让你做5000个梯度下降。
在这里插入图片描述

1.3 Batch vs. Mini-batch梯度下降法

在这里插入图片描述

使用batch梯度下降法时，每次迭代你都需要遍历整个训练集，并且每次迭代成本函数 $J$ 都会下降。如果成本函数 $J$ 在某次迭代中增加了，那肯定出了问题，也许是你的学习率(Learning rate)太大。
使用mini-batch梯度下降法时，成本函数 $J$ 并不是在整个过程中每次迭代都是下降的，特别是在每次迭代中，你需要处理的是 $X^{\{t\}}$ 和 $Y^{\{t\}}$ ，而成本函数 $J^{\{t\}}$ 只和 $X^{\{t\}}$ ， $Y^{\{t\}}$ 有关，也就是每次迭代下你都在训练不同的mini-batch或者说训练不同的样本集。因此在训练mini-batch梯度下降法时，经过多代，你可能会看到上图这样的曲线，走向朝下，但有更多的噪声。如果没有每次迭代都下降，这是不要紧的，但整体走势应该向下。
噪声产生的原因在于每次迭代下你都在训练不同的mini-batch或者说是样本集，也许 $X^{\{1\}}$ 和 $Y^{\{1\}}$ 是比较容易计算的mini-batch，因此成本会低一些。不过也许出于偶然， $X^{\{2\}}$ 和 $Y^{\{2\}}$ 是比较难运算的mini-batch，或许你需要一些残缺的样本，这样一来，成本会更高一些，所以才会出现这些摆动。

1.4 如何选择mini-batch大小？

在这里插入图片描述
使用mini-batch梯度下降法的过程中，你需要决定的变量之一是mini-batch的大小，另外 $m$ 是训练集的大小。
第一种极端情况，假设mini-batch的大小等于 $m$ ，也就是batch梯度下降法，在这种极端情况下，你就有了mini-batch $X^{\{1\}}$ 和 $Y^{\{1\}}$ ，并且该mini-batch等于整个训练集，即 $X^{\{1\}},Y^{\{1\}})=(X,Y)$ ，所以把mini-batch大小设为 $m$ ，也就等于batch梯度下降法。
另一种极端情况，假设mini-batch大小为1，此时每个样本都是独立的mini-batch，这种新的算法，叫做随机梯度下降法。对于第一个mini-batch，也就是 $X^{\{1\}}$ 和 $Y^{\{1\}}$ ，如果mini-batch大小为1，实际上它就是你的第一个训练样本，即 $X^{\{1\}},Y^{\{1\}})=(X^{(1)},Y^{(1)})$ 。接着再看第二个mini-batch，也就是第二个训练样本，即 $X^{\{2\}},Y^{\{2\}})=(X^{(2)},Y^{(2)})$ ，然后是第三个训练样本，以此类推，直到最后一个样本，而每一次梯度下降只处理一个样本。
在这里插入图片描述

接下来在上述两种极端下看一下成本函数的优化情况，如果上图是你想要最小化的成本函数的轮廓。batch梯度下降法（蓝色曲线）从某处开始，相对噪声低些，幅度也大一些，并最终找到最小值。
相反，在随机梯度下降法（紫色曲线）中，从某一点开始，每次迭代只对一个样本进行梯度下降，其大部分时候向着全局最小值靠近，有时候也会远离最小值，因为可能那个样本恰好给你指的方向不对，因此随机梯度下降法是有很多噪声的。平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，并不会在达到最小值并停留在此。
而如果使用mini-batch梯度下降法（绿色曲线）的话，它不会总朝向最小值靠近，但它比随机梯度下降要更持续地靠近最小值的方向，它也不一定在很小的范围内收敛或者波动，如果出现这个问题，可以慢慢减少学习率。
在这里插入图片描述

如果使用batch梯度下降法，即mini-batch的大小为 $m$ ，每次迭代需要处理大量训练样本，该算法的主要弊端在于如果训练样本数量巨大，单次迭代耗时太长。如果训练样本不大，那么batch梯度下降法可以运行地很好。
使用随机梯度下降法的话，即mini-batch的大小为1，如果你只要处理一个样本，那这个方法很好，通过减小学习率，噪声会被改善或有所减小，但随机梯度下降法的一大缺点是，你会失去所有向量化带给你的加速，因为一次性只处理了一个训练样本，这样效率过于低下。
所以实践中最好选择不大不小的mini-batch尺寸，这样子学习率可以达到最快。你会发现两个好处，一方面，你得到了大量的向量化操作，上个视频我们用过的例子中，如果mini-batch大小为1000个样本，你就可以对1000个样本向量化，比你一次性处理多个样本快得多。另一方面，你不需要等待整个训练集被处理完就可以开始进行后续工作，同样在上个视频我们用过的例子中，每次训练集允许我们执行5000个梯度下降，所以实际上一些位于中间的mini-batch大小效果最好。
而位于中间的mini-batch大小应该如何选择，指导原则如下：

如果训练集较小，即样本数目小于2000个样本，直接使用batch梯度下降法即可。样本数目较小就没必要使用mini-batch梯度下降法，因为你可以快速处理整个训练集。如果样本数目较大的话，一般mini-batch大小设置为64到512，考虑到电脑内存设置和使用的方式，如果mini-batch大小是2的 $n$ 次方，代码会运行地快一些，比如64就是2的6次方，128是2的7次方，以此类推，256是2的8次方，512是2的9次方。所以我经常把mini-batch大小设成2的 $n$ 次方。在上一章节里，mini-batch大小设为了1000，你可以试一下1024，也就是2的10次方。
最后需要注意的是，在你的mini-batch中，要确保 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 符合CPU/GPU内存，取决于你的应用方向以及训练集的大小。如果你处理的mini-batch和CPU/GPU内存不相符，不管用什么方法处理数据，你会发现算法的表现急转直下，变得惨不忍睹，所以我希望你对一般的mini-batch大小有一个直观了解。事实上mini-batch大小是一个重要的变量，你需要做一个快速尝试，才能找到能够最有效地减少成本函数的那个，我一般会尝试几个不同的值，几个不同的2的 $n$ 次方，然后看能否找到一个让梯度下降优化算法最高效的mini-batch大小。

2. 指数加权平均 (Exponentially Weighted Averages)

2.1 基本原理

在这里插入图片描述

上图是天气与日期的变化关系，横轴表示的是一年中的第几天，纵轴表示的是该天的温度。1月份和12月份的温度相对于年中(6、7月份)的温度要低一些。
下面我们通过温度的局部平均值(移动平均值)来描述温度的变化趋势。 $v_0=0$ $v_1=0.9*v_0+0.1*\theta_1$ $v_2=0.9*v_1+0.1*\theta_2$ $v_3=0.9*v_2+0.1*\theta_3$ $\cdots \cdots$ 以此类推，我们可以用如下公式来计算局部平均值。 $v_t=\beta*v_{t-1}+(1-\beta)*\theta_t$ 其中 $v_t$ 表示到第 $t$ 天的局部平均温度值， $\theta_t$ 表示第 $t$ 天的温度， $\beta$ 表示可调节的超参数。
在计算时可将 $v_t$ 看作是 $\frac 1{(1-\beta)}$ 天内的平均温度。假设 $\beta$ 是0.9，即 $\frac{1}{(1-\beta)}=\frac{1}{(1-0.9)}=10$ 天内的平均温度，如下图中的红线部分。
在这里插入图片描述

假设将 $\beta$ 设置为一个接近1的值，比如0.98，即 $\frac1{(1-0.98)}=50$ ，这就是粗略平均了一下过去50天的温度，如下图中的绿线部分。
在这里插入图片描述

相对于红线来说，得到的曲线要平坦一些，原因在于多平均了几天的温度，所以这个曲线，波动更小，更加平坦，但缺点是曲线进一步右移，产生了延迟。
假设 $\beta$ 取另一个极端值，比如说0.5，根据公式 $\frac1{(1-\beta)}$ 可知这是平均了两天的温度，如下图中的黄线部分。
在这里插入图片描述

相对于红线来说，它抖动的更加厉害，因为它只平均了两天的温度，所以对于温度的趋势反馈能够更加的及时，更快的适应温度的变化，同时它也会带来更多的噪声（平均的天数太少）。

2.2 本质作用

对于这个计算指数加权平均的方程 $v_t=\beta*v_{t-1}+(1-\beta)*\theta_t$ 假设 $\beta=0.9$ ， $t$ 从100到1逐级递减，写下如下公式 $v_{100}=0.9*v_{99}+0.1*\theta_{100}$ $v_{99}=0.9*v_{98}+0.1*\theta_{99}$ $v_{98}=0.9*v_{97}+0.1*\theta_{98}$ $v_{97}=0.9*v_{96}+0.1*\theta_{97}$ $\cdots \cdots$ $v_1=0.9*v_0+0.1*\theta_1$ 将 $v_{99}$ 代入到 $v_{100}$ 中，可得： $v_{100}=0.1*\theta_{100}+0.9*(0.1*\theta_{99}+0.9*v_{98})$ 再将 $v_{98}$ 代入到 $v_{99}$ 中，可得： $v_{100}=0.1*\theta_{100}+0.9*(0.1*\theta_{99}+0.9*(0.1*\theta_{98}+0.9*v_{97}))$ 以此类推，将这些括号里面的内容展开，可得：
$\begin{aligned} v_{100}&=0.1*\theta_{100}+0.1*0.9*\theta_{99}+0.1*0.9^2*\theta_{98}+0.1*0.9^3*\theta_{97}+\cdots+0.1*0.9^{99}*\theta_1\\ &=0.1*\sum_{i=1}^{100} 0.9^{(100-i)}*\theta_i \\ \end{aligned}$ 由此可知，上面的式子就是一个指数加权平均。
取 $\epsilon=1-\beta=0.1$ ，即 $\beta=0.9$ 。当 $(1-\epsilon)^{\frac{1}{\epsilon}}=\frac{1}{e}$ 时，即 $(0.9)^{10}=\frac{1}{e}\approx0.37$ （ $e$ 为自然对数， $e = 2.71828$ ），也就是当曲线的高度下降到峰值的 $\frac13$ ，权重下降到峰值权重的 $\frac{1}{e}$ 时，我们就说它平均了 $\frac{1}{\epsilon}$ = $\frac{1}{1-\beta}$ 天的数据。

2.3 算法实现

你要做的是，一开始先将 $v$ 初始化为0

v = 0

然后在第一天使 $v:=\beta v+(1-\beta)\theta_1$

v = beta * v + (1 - beta) * theta_1

第二天继续更新 $v$ 值，使 $v:=\beta v+(1-\beta)\theta_2$

v = beta * v + (1 - beta) * theta_2

以此类推，接下来每一天根据第 $t$ 天的数据，把 $v$ 更新为 $v_t=\beta v_{\theta}+(1-\beta)\theta_t$ 。
指数加权平均公式的好处之一在于，它占用极少内存，电脑内存中只占用一行数字而已，然后把最新数据代入公式，不断覆盖就可以了。但缺点是，如果保存所有最近的温度数据和过去10天的总和，必须占用更多的内存，执行更加复杂，计算成本也更加高昂。

2.4 偏差修正

2.4.1 偏差来源

在这里插入图片描述

在之前的章节中讲到，红色曲线对应的 $\beta$ 值为0.9，绿色曲线对应的 $\beta$ 值为0.98。但实际上，如果你执行公式 $v_t=\beta v_{t-1}+(1-\beta)\theta_t$ ，在 $\beta$ 等于0.98的时候，得到的并不是绿色曲线，而是紫色曲线，可以注意到紫色曲线的起点较低。
在这里插入图片描述

计算移动平均数的时候，首先初始化 $v_0$ $v_0=0$ 因为 $v_0=0$ ，所以 $v_1=0.98v_0+0.02\theta_1=0.02\theta_1$ 如果第一天的温度是40华氏度，那么 $v_1=0.02\theta_1=0.02*40=8$ ，得到的值会比实际值小很多，所以第一天的温度估计不准确。
$v_2=0.98v_1+0.02θ_2$ 将 $v_1$ 代入到 $v_2$ 中 $v_2=0.98*0.02\theta_1+0.02\theta_2=0.0196\theta_1+0.02\theta_2$ 假设 $\theta_1$ 和 $\theta_2$ 都是正数，计算后 $v_2$ 要远小于 $\theta_1$ 和 $\theta_2$ ，所以 $v_2$ 不能很好地估算出这一年前两天的温度。

2.4.2 修正方法

在估测初期，不使用 $v_t$ ，而是用 $\frac{v_t}{1-\beta^t}$ ，其中 $t$ 是现在的天数。
举例来说，假设 $t = 2$ 时，那么 $1-\beta^t=1-0.98^2=0.0396$ ，因此对第二天温度的估测变成了 $\frac{v_2}{0.0396}=\frac{0.0196\theta_1+0.02\theta_2}{0.0396}$ ，也就是 $\theta_1$ 和 $\theta_2$ 的加权平均数，并且去除了偏差。随着 $t$ 增加， $\beta^t$ 接近于0，所以当 $t$ 很大的时候，偏差修正几乎没有作用，因此当 $t$ 较大的时候，紫线基本和绿线重合了。

3. 动量梯度下降法 (Gradient Descent with Momentum)

还有一种优化算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，其基本的思路就是计算梯度的指数加权平均数，并利用该梯度更新你的权重。

3.1 案例说明

在这里插入图片描述

以优化成本函数为例，成本函数的形状如上图，红点代表最小值的位置。
以优化成本函数为例，假设从蓝点位置开始执行梯度下降，如果进行梯度下降的一次迭代，你会发现，无论是batch或mini-batch下降法，都会从起始点开始在这个椭圆范围内来回波动，然后一步一步梯度计算下去，慢慢摆动到最小值，这种上下波动减慢了梯度下降法的速度，你就无法使用更大的学习率（紫色曲线），如果你要用较大的学习率，结果可能会偏离函数的范围，因此为了避免摆动过大，你要用一个较小的学习率。
另一个看待问题的角度是，在纵轴上，你希望学习慢一点，因为你不想要这些摆动，但是在横轴上，你希望加快学习，能够快速从左向右移动，移向最小值。

3.2 算法实现

使用动量梯度下降法，你需要做的是，在每次迭代中，或者说在第 $t$ 次迭代的过程中，首先使用现有的mini-batch或batch来计算微分 $d W$ 和 $d b$ ，这里省略上标 $[l]$ 。
其次你要做的是通过指数加权平均来计算 $v_{dW}$ 和 $v_{db}$ $v_{dW}=\beta v_{dW}+(1-\beta)dW$ $v_{db}=\beta v_{db}+(1-\beta)db$ 然后重新赋值权重 $W:=W-\alpha v_{dW}$ $b:=b-\alpha v_{db}$ 这样就可以减缓梯度下降的幅度。
在这里插入图片描述

这个算法中有两个超参数，即学习率 $\alpha$ 和参数 $\beta$ ，其中 $\beta$ 控制着指数加权平均数。 $\beta$ 最常用的值是0.9，我们之前平均了过去十天的温度，所以这里是平均了前十次迭代的梯度。
关于偏差修正，按照之前的公式，这里应该使用 $\frac{v_{dW}}{1-\beta^t}$ 和 $\frac{v_{db}}{1-\beta^t}$ ，但实际上人们不这么做，因为经过10次迭代之后，移动平均已经过了初始阶段，所以不会受到偏差修正的困扰。
$v_{dW}$ 的初始值是0，这是和 $d W$ 以及 $W$ 拥有相同维数的零矩阵。同样的， $v_{db}$ 的初始值也是向量零，并且和 $d b$ 以及 $b$ 拥有相同的维数。
使用动量梯度下降法时，还会遇到另一种表达公式，即 $1-\beta$ 被删除了。 $v_{dW}=\beta v_{dW}+dW$ 所以 $v_{dW}$ 缩小了 $1-\beta$ 倍，相当于乘以 $\frac1{1-\beta}$ ，因此当你要使用梯度下降最新值的话， $\alpha$ 也要根据 $\frac1{1-\beta}$ 相应变化。实际上，二者效果都不错，只会影响到学习率 $\alpha$ 的最佳值。但是第二个公式使用起来没那么自然，它会有一个影响，如果最后要调整超参数 $\beta$ ，就会影响到 $v_{dW}$ 和 $v_{db}$ ，也许还要修改学习率 $\alpha$ ，因此更倾向于使用第一个公式。

3.3 本质理解

在这里插入图片描述

如果你要最小化的函数是碗状函数，微分项 $d W$ 和 $d b$ 相当于加速度，Momentum项 $v_{dW}$ 和 $v_{db}$ 相当于速度。假设你有一个碗，把一个球从碗的某个位置放下，微分项给了这个球一个加速度，此时球向下滚动，因为加速度的作用越滚越快，而因为 $\beta$ 稍小于1，相当于摩擦力作用，所以球不会无限加速下去，不像梯度下降法那样，每一步都独立于之前的步骤，你的球可以向下滚，从而获得动量。

4. RMSprop (Root Mean Square Rrop)

4.1 算法实现

在每一次迭代中，或者说在第 $t$ 次迭代中，首先RMSprop算法会计算当下mini-batch的微分 $d W$ 和 $d b$ 。
接着RMSprop会通过指数加权平均的方式计算 $S_{dW}$ 和 $S_{db}$ $S_{dW}=\beta S_{dW}+(1-\beta)(dW)^2$ $S_{db}=\beta S_{db}+(1-\beta)(db)^2$ 需要注意的是，这里的平方是针对整个符号的操作，这样做能够保留微分平方的加权平均数。
最后更新参数值 $W$ 和 $b$ $W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}+\epsilon}$ $b:=b-\alpha \frac{db}{\sqrt{S_{db}}+\epsilon}$ 为了确保这里不会除以0，在实际应用中，需要在分母上加上一个很小很小的 $\epsilon$ ， $\epsilon$ 一般取 $10^{−8}$ 。

4.2 原理解释

在这里插入图片描述

以优化成本函数为例，假设纵轴代表参数 $b$ ，横轴代表参数 $W$ 。
在横轴方向或者说在例子中的 $W$ 方向，我们希望学习速度快，即希望 $\alpha \frac{dW}{\sqrt{S_{dW}}}$ 较大，因此 $S_{dW}$ 会相对较小。
而在垂直方向，也就是例子中的 $b$ 方向，我们希望减缓纵轴上的摆动，也就是希望 $b$ 的浮动较小，即 $\alpha \frac{db}{\sqrt{S_{db}}}$ 的值较小，所以需要分母上的 $S_{db}$ 相对较大。
从上图中可以看到函数的倾斜程度，在纵轴上，也就是 $b$ 方向上的斜率要大于在横轴上的斜率，也就是 $d b$ 较大， $d W$ 较小。 $d b$ 的平方较大，所以 $S_{db}$ 也会较大，而相比之下， $d W$ 会小一些，亦或 $d W$ 平方会小一些，因此 $S_{dW}$ 会小一些，结果就是纵轴上的更新要被一个较大的数相除，就能消除摆动，而水平方向的更新则被较小的数相除，就能加快学习。
注：这里把纵轴和横轴方向分别称为 $b$ 和 $W$ ，只是为了方便展示而已。实际上，你会处于参数的高维度空间，可能是参数 $W 1$ 、 $W 2$ 、 $W 3$ 等的合集。同样的， $d W$ 和 $d b$ 也是一个高维度的参数向量。

5. Adam优化算法 (Adam Optimization Algorithm)

5.1 算法实现

使用Adam算法，首先需要初始化 $v_{dW}=0，S_{dW}=0，v_{db}=0，S_{db}=0$ 接下来需要在第 $t$ 次迭代中计算微分，用当前的mini-batch计算 $d W$ 和 $d b$ ，一般会用mini-batch梯度下降法。
然后计算Momentum指数加权平均数 $v_{dW}=\beta_1v_{dW}+(1-\beta_1)dW$ $v_{db}=\beta_1v_{db}+(1-\beta_1)db$ 接着使用RMSprop进行更新，即使用不同的超参数 $\beta_2$ $S_{dW}=\beta_2S_{dW}+(1-\beta_2)(dW)^2$ $S_{db}=\beta_2S_{db}+(1-\beta_2)(db)^2$ 相当于Momentum更新了超参数 $\beta_1$ ，RMSprop更新了超参数 $\beta_2$ 。
一般使用Adam算法的时候，要计算偏差修正 $v_{dW}^{corrected}=\frac{v_{dW}}{1-\beta_1^t}$ $v_{db}^{corrected}=\frac{v_{db}}{1-\beta_1^t}$ $S$ 也使用偏差修正，也就是 $S_{dW}^{corrected}=\frac{S_{dW}}{1-\beta_2^t}$ $S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$ 最后更新参数值 $W:=W-\frac{\alpha v_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}}+\epsilon}$ $b:=b-\frac{\alpha v_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon}$ 所以Adam算法结合了Momentum和RMSprop梯度下降法，并且是一种极其常用的学习算法，被证明能有效适用于不同神经网络以及适用于广泛的结构。

5.2 超参数的选择

(1) 学习率 $\alpha$ ：学习率 $\alpha$ 很重要，经常需要调试，你可以尝试一系列值，然后看哪个更有效。
(2) 移动加权平均系数 $\beta_1$ ：常用的缺省值为0.9，这是 $d W$ 的移动平均数，也就是 $d W$ 的加权平均数，这是Momentum涉及的项。
(3) 移动加权平均系数 $\beta_2$ ：Adam算法的发明者推荐使用0.999，这是在计算 $dW)^2$ 以及 $db)^2$ 的移动加权平均值。
(4) 偏置项 $\epsilon$ ： $\epsilon$ 的选择其实没那么重要，Adam论文的作者建议 $\epsilon$ 为 $10^{-8}$ ，但你并不需要设置它，因为它并不会影响算法表现。

6. 学习率衰减 (Learning Rate Decay)

6.1 概念解释

加快学习算法的一个办法就是随时间慢慢减少学习率。
在这里插入图片描述

假设你要使用mini-batch梯度下降法，mini-batch数量不大，大约是64或者128个样本，在迭代过程中会有噪音（蓝色曲线），下降朝向最小值，但是不会精确地收敛，所以最后会在最小值附近摆动，并不会真正收敛，因为使用的学习率 $\alpha$ 是固定值，不同的mini-batch中有噪音。
在这里插入图片描述

但要慢慢减少学习率 $\alpha$ 的话，在初期的时候，学习率 $\alpha$ 还较大，学习还是相对较快，但随着 $\alpha$ 变小，步伐也会变慢变小，所以最后会在最小值附近的一小块区域里摆动（绿色曲线），而不是在训练过程中，大幅度在最小值附近摆动。
所以慢慢减少 $\alpha$ 的本质在于，在学习初期，学习率大一些，能以较大的步伐向最小值下降，但当开始收敛的时候，小一些的学习率能让步伐小一些。

6.2 学习率衰减的方法

方法	备注
$\alpha=\frac{1}{1\ +\ decay\ rate\ *\ epoch\_num}\alpha_0$	decay-rate为衰减率，epoch-num为代数，即遍历训练集的次数， $\pmb{\alpha_0}$ 为初始学习率
$\alpha=0.95^{epoch\_num}\alpha_0$	学习率呈指数下降
$\alpha=\frac{k}{\sqrt{epoch\_num}}\alpha_0$ 或 $\alpha=\frac{k}{\sqrt{t}}\alpha_0$	$t$ 为mini-batch的数字
离散下降（discrete stair cease）

7. 局部最优的问题 (The Problem of Local Optima)

在深度学习研究早期，人们总是担心优化算法会困在极差的局部最优，不过随着深度学习理论不断发展，我们对局部最优的理解也发生了改变。
在这里插入图片描述

上图是曾经人们在想到局部最优时脑海里会出现的图，在图中似乎各处都分布着局部最优。梯度下降法或者某个算法可能困在一个局部最优中，而不会抵达全局最优。如果你要作图计算一个数字，比如在上图的两个维度中，就容易出现有多个不同局部最优的图，而这些低维的图曾经影响了我们的理解，但是这些理解并不正确。事实上，如果你要创建一个神经网络，通常梯度为零的点并不是这个图中的局部最优点，实际上成本函数的零梯度点，通常是鞍点。
在这里插入图片描述

但是一个具有高维度空间的函数，如果梯度为0，那么在每个方向，它可能是凸函数，也可能是凹函数。假设你在一个2万维空间中，想要得到局部最优，那么所有的2万个方向都需要是凹函数或者都是凸函数，但这样子发生的机率也许很小，大概只有 $\frac{1}{2^{20000}}$ ，而更有可能遇到有些方向的曲线会向上弯曲，另一些方向曲线向下弯曲，而不是所有的都向上弯曲，因此在高维度空间，你更可能碰到鞍点，而不会碰到局部最优。
在这里插入图片描述

而另一个问题是在平稳段会减缓学习，平稳段是一块区域，其中导数长时间接近于0，如果你在此处，梯度会从曲面自上而下地下降，因为梯度等于或接近0，曲面很平坦，你得花上很长时间慢慢抵达平稳段的这个点（蓝色曲线），然后因为左边或右边的随机扰动，你的算法能够走出平稳段（红色曲线）。
总结一下这部分的要点：
第一，你不太可能困在极差的局部最优中，除非是在训练较大的神经网络，存在大量参数，并且成本函数 $J$ 被定义在较高的维度空间。
第二，平稳段是一个问题，这会使得学习十分缓慢，在这种情况下，使用更成熟的优化算法，如Adam算法，能够加快速度，让你尽早往下走出平稳段。