吴恩达深度学习课程之第二门课改善深层神经网络第二周：优化算法 (Optimization algorithms)

最新推荐文章于 2024-06-16 11:02:33 发布

Clark-dj

最新推荐文章于 2024-06-16 11:02:33 发布

阅读量483

点赞数

分类专栏： # 吴恩达深度学习笔记

本文链接：https://blog.csdn.net/dujuancao11/article/details/107574441

版权

吴恩达深度学习笔记专栏收录该内容

16 篇文章 28 订阅

订阅专栏

本文参考黄海广主编针对吴恩达深度学习课程DeepLearning.ai 《深度学习课程笔记（V5.1 ）》

第二周：优化算法 (Optimization algorithms)

2.1 Mini-batch 梯度下降（Mini-batch gradient descent ）

机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助你快速训练模型。

深度学习没有在大数据领域发挥最大的效果，我们可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练速度很慢。那么，我们首先来谈谈 mini-batch 梯度下降法。
解释一下这个算法的名称，batch 梯度下降法指的是我们之前讲过的梯度下降法算法，就是同时处理整个训练集，这个名字就是来源于能够同时看到整个 batch 训练集的样本被处理。
相比之下，mini-batch 梯度下降法，指的是你每次同时处理的单个的 mini-batch X {t} 和Y {t} ，而不是同时处理全部的X和Y训练集。

如果你有一个丢失的训练集，mini-batch 梯度下降法比 batch 梯度下降法运行地更快，所以几乎每个研习深度学习的人在训练巨大的数据集时都会用到。

2.2 理解 mini-batch 梯度下降法（Understanding mini-batch gradient descent ）

进一步学习如何执行梯度下降法，更好地理解其作用和原理。

使用 batch 梯度下降法时，每次迭代你都需要历遍整个训练集，可以预期每次迭代成本都会下降，所以如果成本函数J是迭代次数的一个函数，它应该会随着每次迭代而减少，如果J在某次迭代中增加了，那肯定出了问题，也许你的学习率太大。

使用 mini-batch 梯度下降法，如果你作出成本函数在整个过程中的图，则并不是每次迭代都是下降的，特别是在每次迭代中，你要处理的是X {t} 和Y {t} ，如果要作出成本函数J {t} 的图，而J {t}只和X {t} 和Y {t}有关，也就是每次迭代下你都在训练不同的样本集或者说训练不同的 mini-batch，如果你要作出成本函数J的图，你很可能会看到这样的结果，走向朝下，但有更多的噪声。

噪声产生的原因在于也许X {1} 和Y {1}是比较容易计算的 mini-batch，因此成本会低一些。不过也许出于偶然，X {2} 和Y {2} 是比较难运算的 mini-batch，或许你需要一些残缺的样本，这样一来，成本会更高一些，所以才会出现这些摆动，因为你是在运行 ini-batch 梯度下降法作出成本函数图。

你需要决定的变量之一是 mini-batch 的大小，m就是训练集的大小.

1. 极端情况下，如果mini-batch 的大小等于m，其实就是 batch 梯度下降法，在这种极端情况下，你就有了 mini-batch X {1} 和Y {1} ，并且该 mini-batch 等于整个训练集，所以把 mini-batch 大小设为m可以得到 batch 梯度下降法。

2. 另一个极端情况，假设 mini-batch 大小为 1，就有了新的算法，叫做随机梯度下降法，每个样本都是独立的 mini-batch，当你看第一个 mini-batch，也就是𝑌 {1} 和𝑍 {1} ，如果 mini-batch 大小为 1，它就是你的第一个训练样本。接着再看第二个 mini-batch，也就是第二个训练样本，采取梯度下降步骤，然后是第三个训练样本，以此类推，一次只处理一个。

图片分析:

看在两种极端下成本函数的优化情况，如果这是你想要最小化的成本函数的轮廓，最小值在那里，batch 梯度下降法从某处开始，相对噪声低些，幅度也大一些，你可以继续找最小值。
相反，在随机梯度下降法中，从某一点开始，我们重新选取一个起始点，每次迭代，你只对一个样本进行梯度下降，大部分时候你向着全局最小值靠近，有时候你会远离最小值，因为那个样本恰好给你指的方向不对，因此随机梯度下降法是有很多噪声的，平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，但它并不会在达到最小值并停留在此。

实际上你选择的 mini-batch 大小在二者之间，大小在 1 和m之间，而 1 太小了，m太大了.

原因在于如果使用 batch 梯度下降法，mini-batch 的大小为m，每个迭代需要处理大量训练样本，该算法的主要弊端在于特别是在训练样本数量巨大的时候，单次迭代耗时太长。如果训练样本不大，batch 梯度下降法运行地很好。

相反，如果使用随机梯度下降法，如果你只要处理一个样本，那这个方法很好，这样做没有问题，通过减小学习率，噪声会被改善或有所减小，但随机梯度下降法的一大缺点是，你会失去所有向量化带给你的加速，因为一次性只处理了一个训练样本，这样效率过于低下，所以实践中最好选择不大不小的 mini-batch 尺寸，实际上学习率达到最快。

你会发现两个好处，一方面，你得到了大量向量化，上个视频中我们用过的例子中，如果 mini-batch 大小为1000 个样本，你就可以对 1000 个样本向量化，比你一次性处理多个样本快得多。另一方面，你不需要等待整个训练集被处理完就可以开始进行后续工作。

如果 mini-batch 大小既不是 1 也不是m，应该取中间值，那应该怎么选择呢？其实是有指导原则的。
1. 如果训练集较小，直接使用 batch 梯度下降法，样本集较小就没必要使用 mini-batch 梯度下降法，你可以快速处理整个训练集，所以使用 batch 梯度下降法也很好，这里的少是说小于 2000 个样本，这样比较适合使用 batch 梯度下降法。

2. 样本数目较大的话，一般的 mini-batch 大小为 64 到 512，考虑到电脑内存设置和使用的方式，如果 mini-batch 大小是 2 的n次方，代码会运行地快一些，64 就是 2 的 6 次方，以此类推，128 是 2 的7 次方，256 是 2 的 8 次方，512 是 2 的 9 次方。所以我经常把 mini-batch 大小设成 2 的次方。也有 mini-batch 的大小为 1024，不过比较少见，64 到 512 的 mini-batch 比较常见。
3. 最后需要注意的是在你的 mini-batch 中，要确保X {t} 和Y {t} 要符合 CPU/GPU 内存，取决于你的应用方向以及训练集的大小。如果你处理的 mini-batch 和 CPU/GPU 内存不相符，不管你用什么方法处理数据，你会注意到算法的表现急转直下变得惨不忍睹。

2.3 指数加权平均数（Exponentially weighted averages ）

展示几个优化算法，它们比梯度下降法快，要理解这些算法，你需要用到指数加权平均，在统计中也叫做指数加权移动平均，我们首先讲这个，然后再来讲更复杂的优化算法。

下面图片中的那个公式：

2.4 理解指数加权平均数（Understanding exponentially weighted averages）

我们讲到了指数加权平均数，这是几个优化算法中的关键一环，而这几个优化算法能帮助你训练神经网络。本视频中，我希望进一步探讨算法的本质作用。
回忆一下这个计算指数加权平均数的关键方程。

我们进一步地分析，来理解如何计算出每日温度的平均值

然后我们构建一个指数衰减函数，从 0.1 开始，到0.1 × 0.9，到0.1 × (0.9) 2 ，以此类推，所以就有了这个指数衰减函数，右下。

指数加权平均数公式的好处之一在于，它占用极少内存，电脑内存中只占用一行数字而已，然后把最新数据代入公式，不断覆盖就可以了，正因为这个原因，其效率，它基本上只占用一行代码，计算指数加权平均数也只占用单行数字的存储和内存，当然它并不是最好的，也不是最精准的计算平均数的方法。如果你要计算移动窗，你直接算出过去 10 天的总和，过去 50 天的总和，除以 10 和 50 就好，如此往往会得到更好的估测。但缺点是，如果保存所有最近的温度数据，和过去 10 天的总和，必须占用更多的内存，执行更加复杂，计算成本也更加高昂。

2.5 指数加权平均的偏差修正（ Bias correction in exponentially weighted averages ）

学过了如何计算指数加权平均数，有一个技术名词叫做偏差修正，可以让平均数运算
更加准确，来看看它是怎么运行的。

在机器学习中，在计算指数加权平均数的大部分时候，大家不在乎执行偏差修正，因为大部分人宁愿熬过初始时期，拿到具有偏差的估测，然后继续计算下去。如果你关心初始时期的偏差，在刚开始计算指数加权移动平均数的时候，偏差修正能帮助你在早期获取更好的估测。

2.6 动量梯度下降法（Gradient descent with Momentum ）

还有一种算法叫做 Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新你的权重，在本视频中，我们呢要一起拆解单句描述，看看你到底如何计算。

例如，如果你要优化成本函数，函数形状如图，红点代表最小值的位置，假设你从这里（蓝色点）开始梯度下降法，如果进行梯度下降法的一次迭代，无论是 batch 或 mini-batch下降法，也许会指向这里，现在在椭圆的另一边，计算下一步梯度下降，结果或许如此，然后再计算一步，再一步，计算下去，你会发现梯度下降法要很多计算步骤对吧？

慢慢摆动到最小值，这种上下波动减慢了梯度下降法的速度，你就无法使用更大的学习率，如果你要用较大的学习率（紫色箭头），结果可能会偏离函数的范围，为了避免摆动过大，你要用一个较小的学习率。

例如，在上几个导数中，你会发现这些纵轴上的摆动平均值接近于零，所以在纵轴方向，你希望放慢一点，平均过程中，正负数相互抵消，所以平均值接近于零。但在横轴方向，所有的微分都指向横轴方向，因此横轴方向的平均值仍然较大，因此用算法几次迭代后，你发现动量梯度下降法，最终纵轴方向的摆动变小了，横轴方向运动更快，因此你的算法走了一条更加直接的路径，在抵达最小值的路上减少了摆动。动量梯度下降法的一个本质，它们能够最小化碗状函数，这些微分项，想象它们为你从山上往下滚的一个球，提供了加速度，Momentum 项相当于速度。

最后我们来看具体如何计算，算法在此。

2.7 RMSprop

你们知道了动量（Momentum）可以加快梯度下降，还有一个叫做 RMSprop 的算法，全称是 root mean square prop 算法，它也可以加速梯度下降，我们来看看它是如何运作的。

如果你执行梯度下降，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动，为了分析这个例子，假设纵轴代表参数b，横轴代表参数w，可能有W 1 ，W2 或者其它重要的参数，为了便于理解，被称为b和W。
所以，你想减缓b方向的学习，即纵轴方向，同时加快，至少不是减缓横轴方向的学习，RMSprop 算法可以实现这一点。

MSprop 的影响就是你的更新最后会变成这样（绿色线），纵轴方向上摆动较小，而横轴方向继续推进。还有个影响就是，你可以用一个更大学习率，然后加快学习，而无须在纵轴上垂直方向偏离。

所以 RMSprop 跟 Momentum 有很相似的一点，可以消除梯度下降中的摆动，包括mini-batch 梯度下降，并允许你使用一个更大的学习率，从而加快你的算法学习速度。

2.8 Adam 优化算法(Adam optimization algorithm)

Adam 优化算法基本上就是将 Momentum 和 RMSprop 结合在一起，那么来看看如何使用 Adam 算法。

2.9 学习率衰减(Learning rate decay)

加快学习算法的一个办法就是随时间慢慢减少学习率，我们将之称为学习率衰减，我们来看看如何做到，首先通过一个例子看看，为什么要计算学习率衰减。

假设你要使用 mini-batch 梯度下降法，mini-batch 数量不大，大概 64 或者 128 个样本，在迭代过程中会有噪音（蓝色线），下降朝向这里的最小值，但是不会精确地收敛，所以你的算法最后在附近摆动，并不会真正收敛，因为你用的a是固定值，不同的 mini-batch 中有噪音。

但要慢慢减少学习率𝑏的话，在初期的时候，a学习率还较大，你的学习还是相对较快，但随着a变小，你的步伐也会变慢变小，所以最后你的曲线（绿色线）会在最小值附近的一小块区域里摆动，而不是在训练过程中，大幅度在最小值附近摆动。
所以慢慢减少𝑏的本质在于，在学习初期，你能承受较大的步伐，但当开始收敛的时候，小一些的学习率能让你步伐小一些。
你可以这样做到学习率衰减，记得一代要遍历一次数据。

2.10 局部最优的问题(The problem of local optima)

在深度学习研究早期，人们总是担心优化算法会困在极差的局部最优，不过随着深度学
习理论不断发展，我们对局部最优的理解也发生了改变。

首先，你不太可能困在极差的局部最优中，条件是你在训练较大的神经网络，存在大量参数，并且成本函数J被定义在较高的维度空间。
第二点，平稳段是一个问题，这样使得学习十分缓慢，这也是像 Momentum 或是RMSprop，Adam 这样的算法，能够加速学习算法的地方。在这些情况下，更成熟的优化算法，如 Adam 算法，能够加快速度，让你尽早往下走出平稳段。

Clark-dj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
吴恩达深度学习课程之第二门课改善深层神经网络第二周：优化算法 (Optimization algorithms)

本文参考黄海广主编针对吴恩达深度学习课程DeepLearning.ai 《深度学习课程笔记（V5.1 ）》第二周：优化算法 (Optimization algorithms)2.1 Mini-batch 梯度下降（Mini-batch gradient descent ）机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助你快速训练模型。深度学习没有在大数据领域发挥最大的效果，我们可以利用一个巨大的数据集来训练神经
复制链接

扫一扫