吴恩达《深度学习工程师》Part2.Week3 超参数调试、Batch正则化及程序框架

最新推荐文章于 2024-08-18 06:00:00 发布

fxlou

最新推荐文章于 2024-08-18 06:00:00 发布

阅读量443

点赞数

分类专栏： machine learning deep learning 吴恩达《深度学习工程师》课程笔记

本文链接：https://blog.csdn.net/fxlou/article/details/79350217

版权

machine learning 同时被 3 个专栏收录

15 篇文章 1 订阅

订阅专栏

吴恩达《深度学习工程师》课程笔记

11 篇文章 3 订阅

订阅专栏

deep learning

9 篇文章 0 订阅

订阅专栏

本文介绍了深度学习中超参数调试的重要性，包括学习率、动量、隐藏层单元数和批量大小等关键参数。推荐使用随机取点而非网格法选择最佳超参数。还探讨了Batch正则化的作用，它能加速训练并扩大超参数选择范围。文章提到了在实际训练中如何应用这些技巧，并简要讨论了Tensorflow等深度学习框架。

摘要由CSDN通过智能技术生成

3.1 调试处理
在训练神经网络模型时，超参数的选取是一个非常麻烦且费时的过程。主要的超参数包括：
$1.\alpha\$ 学习率
$2.\beta_1\ momentum$ 梯度下降法参数
$3.\# hiddien\ units\$ 隐藏层单元数
$4.mini-batch\ size$
$5.\#layers\$ 模型层数
$6.learning\ rate\ decay\$ 学习率衰减指数
$7.\beta_1,\beta_2,\epsilon\ Adam$ 参数
其中 $\alpha\$ 学习率是最重要的超参数，其次是 $\beta_1\ momentum$ 、 $\# hiddien\ units\$ 和 $mini-batch\ size$ ，然后是 $\#layers\$ 和 $learning\ rate\ decay\$ 。而 $\beta_1,\beta_2,\epsilon\$ 参数设置为 $0.9,0.99,10^{-8}$ 就可以了。

那么在选取超参数组合时，该如何确定最佳值呢？
在机器学习的早期，是使用网格法来确定，假设有2个超参数，可以汇出5×5的网格，然后测试这25个超参数组合的效果，看组超参数最优，如图1左图所示。

图1 超参数选取方法对比

现在推荐的做法是随机取点，如图1右图所示。这是因为在取点的时候，事先不知道哪种超参数对模型影响较大，哪种超参数影响较小。以学习率 $\alpha$ 和adam模型的 $\epsilon$ 为例，采用网格法测试的25个超参数中，由于 $\epsilon$ 参数的影响效果很小，实际上只相当于测试了5个 $\alpha$ 参数。而使用随机取点，更有可能快速确定合适的参数。

超参数选取的另一个策略是由粗到细进行筛选。

图2 由粗到细筛选超参数
如图2所示，当确定了几个点的超参数组合效果最优时，可以再以这几个点为起点，重新画出区域，并在该区域随机撒点，继续精细地寻找最优的参数组合值。

3.2 为超参数选择合适的范围
上节讲到在选取超参数时需要随机撒点。例如在确定隐藏层的层数或者某一层的节点数时可以采用均匀随机撒点的方法。但是，并不是所有的超参数都适合随机撒点，例如学习率在0.0001到1之间选取时，如果采用均匀随机撒点时，90%的选择都将落在0.1到1之间，实际上0.0001到0.1之间的微调对于模型训练结果非常重要，而均匀随机撒点将会忽略这种影响。
因此，可以使用指数随机撒点的方法。
$r=-4*np.random.randn()\ →r\in[-4,0]$
$\alpha\in10^r\ →r\in[10^{-4},10^0]$

3.3 超参数训练的实践：Panda VS Caviar
不同领域的模型，比如NLP，Vision，Speech，logistics有时候可以相互借鉴。此外，一个训练好的模型的超参数在经过一段时间后可能会因为更换了服务器等各种原因而性能恶化，需要重新调整超参数。

对于庞大的训练数据集，当计算资源CPU或GPU不足时，一次只能训练一个或一批模型时，可以在训练的过程中进行改良，如第一天随机初始化参数，然后观察代价函数的变化，第二天增大学习率试一试，第三天增加momentum等。

另一种方法是，当计算资源充裕时，可以同时训练多个模型，然后找出最优的参数。

3.4 正则化网络的激活
batch正则化能够使神经网络的参数搜索问题变得更容易，能够使得神经网络对参数的选择更加容易，超参数的范围更大，工作效果也更好。
前面讲到在logistic模型中，正则化输入能够使得输入空间更加对称，有利于梯度下降效率的提高。
在深度神经网络模型中，每层的输出都有激活值 $a^{[l]}$ ，那么是否可以类似地正则化 $a^{[l]}$ 来加速训练 $w^{[l+1]}$ 和 $b^{[l+1]}$ 呢？这就时batch正则化。在实际操作时，更常见的做法是正则化 $z^{[l]}$ 。

batch正则化的过程如下：
在每个迭代过程中计算每一层的 $z^{l}$ 。
$\mu=\frac{1}{m}\sum_i^mz^{(i)}$
$\sigma^2=\frac{1}{m}\sum_i^m(z^{(i)}-\mu)$
$z_{norm}^{(i)}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}$
在实际使用时，用 $\hat z_{norm}^{(i)}$ 而不是 $z_{norm}^{(i)}$ ，表达式如下：
$\hat z_{norm}^{(i)}=\gamma z_{norm}^{(i)} +\beta$
其中 $\gamma$ 和 $\beta$ 都是需要模型的学习参数，可以使用梯度下降法或Momentum，Nesterov，Adam等方法来更新 $\gamma$ 和 $\beta$ ，就像更新 $w$ 和 $b$ 一样。 $\gamma$ 和 $\beta$ 能够按照你的意愿设置的 $\hat z_{norm}^{(i)}$ 平均值和方差。比如在logistic回归分析中，如果 $z$ 值集中在0点附近的话，将不能充分利用sigmoid函数的非线性，则batch正则化可以使得 $z$ 的范围更大。

3.5 将batch norm拟合进神经网络
略
3.6 batch norm为什么奏效
归一化输入可以将不同纬度的输入向量变为为相同范围的输入，能够提高梯度下降的效率。 batch norm有类似的效果，只不过 batch norm归一化的不仅仅是输入向量，还包括隐藏层的值。
此外，batch norm还有更深层的影响机制。batch norm能够使得较为靠后的隐藏层对靠前的隐藏层依赖性降低。
图3所示的是一个根据左图黑猫图片集训练出神经网络模型，这个模型有很好的判断图片是否是黑猫的能力。然而当把这个训练好的模型应用到右边彩色猫的判断时，判断效果则会大打折扣。即使存在这样一个判断所有类型的猫的模型，单单根据左侧的黑猫集很难得到这样的函数。样本集从左侧变到右侧的这个行为就叫做“covariate shift”，即输入变量分布发生了变化。