吴恩达深度学习笔记——超参数调试、Batch正则化和程序框架

最新推荐文章于 2022-12-18 21:48:53 发布

SCS199411

最新推荐文章于 2022-12-18 21:48:53 发布

阅读量621

点赞数 1

深度学习专栏收录该内容

10 篇文章

订阅专栏

博客聚焦深度学习中的超参数调试与Batch Normalization。超参数调试方面，介绍了调试处理、范围选择及实践方式；Batch Normalization算法能让参数搜索更易、训练更稳定，还具有快速收敛、提高泛化能力等优势，同时阐述了其动机与具体算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三周超参数调试、Batch正则化和程序框架（Hyperparameter tuning）

3.1 调试处理（Tuning process）

结果证实一些超参数比其它的更为重要， $\alpha$ 无疑是最重要的，接下来是我用橙色圈住的那些，然后是我用紫色圈住的那些，但这不是严格且快速的标准。

在早一代的机器学习算法中，如果你有两个超参数，这里我会称之为超参1，超参2，常见的做法是在网格中取样点，像这样，然后系统的研究这些数值。这里我放置的是5×5的网格，实践证明，网格可以是5×5，也可多可少，但对于这个例子，你可以尝试这所有的25个点，然后选择哪个参数效果最好。当参数的数量相对较少时，这个方法很实用。

在深度学习领域，我推荐你采用下面的做法，随机选择点，所以你可以选择同等数量的点，对吗？25个点，接着，用这些随机取的点试验超参数的效果。之所以这么做是因为，对于你要解决的问题而言，你很难提前知道哪个超参数最重要，正如你之前看到的，一些超参数的确要比其它的更重要。

当你给超参数取值时，另一个惯例是采用由粗糙到精细的策略。

3.2 为超参数选择合适的范围（Using an appropriate scale to pick hyperparameters）

比如选择网络层数或是神经元的节点个数，均匀选择就可以。

但是学习率就不能这样了，取值为0.0001到1

于是我们可以取对数， $r$ 的范围是 $[- 4 ， 0]$ ，而对应学习率 $\alpha$ 的范围是 $[0.0001 ， 1]$

另一个棘手的例子是给 $\beta$ 取值，用于计算指数的加权平均值。假设你认为是0.9到0.999之间的某个值，也许这就是你想搜索的范围。记住这一点，当计算指数的加权平均值时，取0.9就像在10个值中计算平均值，有点类似于计算10天的温度平均值，而取0.999就是在1000个值中取平均。
在这里插入图片描述
与上面的方法类似，现在我们考虑 $1-\beta$ 的取值，在0.1到0.001区间内

3.3 超参数训练的实践：Pandas VS Caviar（Hyperparameters tuning in practice: Pandas vs. Caviar）

深度学习领域中，发展很好的一点是，不同应用领域的人们会阅读越来越多其它研究领域的文章，跨领域去寻找灵感。

所以这两种方式的选择，是由你拥有的计算资源决定的，如果你拥有足够的计算机去平行试验许多模型，那绝对采用鱼子酱方式，尝试许多不同的超参数，看效果怎么样。但在一些应用领域，比如在线广告设置和计算机视觉应用领域，那里的数据太多了，你需要试验大量的模型，所以同时试验大量的模型是很困难的，它的确是依赖于应用的过程。但我看到那些应用熊猫方式多一些的组织，那里，你会像对婴儿一样照看一个模型，调试参数，试着让它工作运转。

3.4 归一化网络的激活函数（Normalizing activations in a network）

在深度学习兴起后，最重要的一个思想是它的一种算法，叫做Batch Normalization，由Sergey loffe和Christian Szegedy两位研究者创造。Batch Normalization会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会是你的训练更加容易，甚至是深层网络。

当训练一个模型，比如logistic回归时，你也许会记得，归一化输入特征可以加快学习过程。你计算了平均值，从训练集中减去平均值，计算了方差，接着根据方差归一化你的数据集，在之前的视频中我们看到，这是如何把学习问题的轮廓，从很长的东西，变成更圆的东西，更易于算法优化。所以这是有效的，对logistic回归和神经网络的归一化输入特征值而言。

Batch Normalization

BN算法（Batch Normalization）其强大之处如下：

你可以选择比较大的初始学习率，让你的训练速度飙涨。当然这个算法即使你选择了较小的学习率，也比以前的收敛速度快，因为它具有快速训练收敛的特性；
你再也不用去理会过拟合中dropout、L2正则项参数的选择问题，采用BN算法后，你可以移除这两项了参数，或者可以选择更小的L2正则约束参数了，因为BN具有提高网络泛化能力的特性；
再也不需要使用使用局部响应归一化层了（局部响应归一化是Alexnet网络用到的方法，搞视觉的估计比较熟悉），因为BN本身就是一个归一化网络层；
可以把训练数据彻底打乱（防止每批训练的时候，某一个样本都经常被挑选到，文献说这个可以提高1%的精度，这句话我也是百思不得其解啊）。

Motivation

网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化，而学习的过程又要使每一层适应输入的分布，因此我们不得不降低学习率、小心地初始化。网络的训练过程容易陷入梯度饱和区，减缓网络收敛速度作者将分布发生变化称之为 internal covariate shift。

我们一般在训练网络的时会将输入减去均值，还有些人甚至会对输入做白化等操作，目的是为了加快训练。白化的方式有好几种，常用的有PCA白化：即对数据进行PCA操作之后，在进行方差归一化。这样数据基本满足0均值、单位方差、弱相关性。作者首先考虑，对每一层数据都使用白化操作，但分析认为这是不可取的。因为白化需要计算协方差矩阵、求逆等操作，计算量很大，此外，反向传播时，白化操作不一定可导。于是，作者采用下面的Normalization方法。

BN算法

数据归一化的方法很简单
在这里插入图片描述
但是作者又说如果简单的这么干，会降低层的表达能力。比如下图，在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分，这显然会降低模型表达能力。
在这里插入图片描述
为此，作者又为BN增加了2个参数，用来保持模型的表达能力，作者引入了两个可学习参数γ和β，通过学习可以恢复出原始网络所要学习的特征分布。