2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.2 为超参数选择合适的范围--选择合适的标尺)

最新推荐文章于 2024-07-12 16:21:48 发布

没人不认识我

最新推荐文章于 2024-07-12 16:21:48 发布

阅读量321

点赞数

分类专栏： python 深度学习 IT 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42555985/article/details/106633208

版权

IT 同时被 3 个专栏收录

389 篇文章 4 订阅

订阅专栏

深度学习

274 篇文章 24 订阅

订阅专栏

python

233 篇文章 0 订阅

订阅专栏

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

3.2 为超参数选择合适的范围 Using an appropriate scale to pick hyperparameters

1.选择合适的标尺--学习率 $\alpha$
2.指数加权平均-- $\beta$ 的取值范围

上节课学习了在超参数范围中，随机取值可以提升你搜索超参数空间的效率。但随机取值并不是在有效范围内的随机均匀取值，而是选择合适的标尺，用于探究这些超参数，这很重要。在本节课中，我会教你怎么做。

1.选择合适的标尺–学习率 $\alpha$

例1：假设你要选取隐藏单元的数量 $n^{[l]}$ ，对于给定层，比如 $l = 1$ ，你取值的范围是从50到100中的某个点。
在这里插入图片描述

如上图。
你可以看到一条从50-100的数轴，在其中随机取点，这是一个搜索特定超参数的很直观的方式。

例2：或者，如果你要选取神经网络的层数，我们称之为字母 $L$ 。你也许会选择层数为2到4中的某个值，接着顺着2，3，4随机均匀取样才比较合理。
在这里插入图片描述

例3：你还可以应用网格搜索，你会觉得2，3，4，这三个数值是合理的。

以上3个是在你考虑范围内随机均匀取值的例子，这些取值还蛮合理的，但对某些超参数而言不适用。

再来看下面的例子。

假设你在搜索超参数 $\alpha$ （学习速率），你怀疑其值最小是0.0001或最大是1。
在这里插入图片描述

观察上图。
如果你画一条从0.0001到1的数轴，沿其随机均匀取值，那90%的数值将会落在0.1到1之间。结果就是，在0.1到1之间，应用了90%的资源，而在0.0001到0.1之间，只有10%的搜索资源，这看上去不太对。
在这里插入图片描述

观察上图。此时，改用对数标尺搜索超参数的方式会更合理。
因此这里不使用线性轴，分别依次取0.0001，0.001，0.01，0.1，1，在对数轴上均匀随机取点。这样，在0.0001到0.001之间，就会有更多的搜索资源可用，还有在0.001到0.01之间等等。

在python中，你可以这样做

r=-4*np.random.rand()， $r\in [-4,0]$
$\alpha=10^r$ ， $\alpha \in [10^{-4},10^0]$

所以标尺最左边数字是10^-4，最右边是数字10⁰。

更加通常的情况就是，你会在10^a和10^b之间取值。
本例中，

10^a=0.0001，所以a=-4
10^b=1，所以b=0

而 $r\in [a,b]$ ，即 $r\in [-4,0]$ 。
最后你可以设置 $\alpha$ 的值，基于随机取样的超参数 $\alpha=10^r$

总结，对数轴上取值的过程

在对数坐标下取值，取最小值的对数就得到 a 的值(a=log0.0001)，取最大值的对数就得到 b 值(b=log1)
你在对数轴上的10^a到10^b区间取值
在a，b间随意均匀的选取r值
将超参数设置为10^r

2.指数加权平均– $\beta$ 的取值范围

另一个棘手的例子是给 $\beta$ 取值，用于计算指数的加权平均值。

假设你认为 $\beta$ 是0.9到0.999之间的某个值，也许这就是你想搜索的范围。

请记住，当计算指数的加权平均值时，取0.9就像在10个值中计算平均值，有点类似于计算10天的温度平均值，而取0.999就是在1000个值中取平均。

如果你想在0.9到0.999区间搜索，那就不能用线性轴取值，也就是随机均匀在此区间取值，对吧？考虑这个问题最好的方法就是探究 $1-\beta$ 的值。

此值在0.1到0.001区间内，所以我们会给 $1-\beta$ 取值，大概是从0.1到0.001。
在这里插入图片描述

应用之前介绍的方法，那就是10^-1和10^-3。

注意，之前我们把最小值写在左边，最大值写在右边，但在这里，我们颠倒了大小，左边的是最大值，右边的是最小值。

所以你要做的就是在[-3,-1]里随机均匀的给r取值。
设定 $1-\beta=10^r$ ，所以 $\beta=1-10^r$ ，然后这就变成了在特定的选择范围内超参数随机取值。希望用这种方式得到想要的结果，你在0.9到0.99区间探究的资源，和在0.99到0.999区间探究的一样多。
在这里插入图片描述

如果你想研究更多正式的数学证明，关于为什么我们要这样做，为什么用线性轴取值不是个好办法，这是因为当 $\beta$ 接近1时，所得结果的灵敏度会变化，即使有微小的变化。
在这里插入图片描述

所以 $\beta$ 在0.9到0.9005之间取值，无关紧要，你的结果几乎不会变化。
但 $\beta$ 值如果在0.999到0.9995之间，这会对你的算法产生巨大影响。

上面这两种情况下，是根据大概10个值取平均。而这里，它是指数的加权平均值。

根据公式 $\frac 1{1-\beta}$ （学习率 $\alpha$ 依据其变化，参见动量梯度下降），当 $\beta$ 接近1时(在0.999到0.9995之间)，就会对细微的变化变得很敏感。所以整个取值过程中， $\beta$ 要更加密集在接近1的区间内取值。或者说，当 $1-\beta$ 接近于0时，你就可以更加有效的分布取样点，更有效率的探究可能的结果。

通过本节课介绍，希望能帮助你选择合适的标尺，来给超参数取值。如果你没有在超参数选择中作出正确的标尺决定，别担心，即使你在均匀的标尺上取值，如果数值总量较多的话，你也会得到还不错的结果，尤其是应用从粗到细的搜索方法，在之后的迭代中，你还是会聚焦到有用的超参数取值范围上。

没人不认识我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.2 为超参数选择合适的范围--选择合适的标尺)

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai3.2 为超参数选择合适的范围 Using an appropriate scale to pick hyperparameters1.选择合适的标尺--学
复制链接

扫一扫