深度学习笔记（二十二）超参数调试处理

最新推荐文章于 2022-11-21 16:50:03 发布

Mr.zwX

最新推荐文章于 2022-11-21 16:50:03 发布

阅读量703

点赞数 2

分类专栏：【深度学习/神经网络】Deep Learning

本文链接：https://blog.csdn.net/qq_16763983/article/details/113282391

版权

【深度学习/神经网络】Deep Learning 专栏收录该内容

86 篇文章 47 订阅

订阅专栏

一、调试超参数时的重要程度（偏主观）

最重要：学习率 $\alpha$
次重要：动量梯度下降中的 $\beta$ 、隐藏单元数、Mini-batch数量
次次重要：网络层数、学习衰减率
不那么重要：Adam算法中的 $\beta_1、\beta_2、\varepsilon$

在这里插入图片描述
一个重要的原则就是不要用网格取值来搜索超参数取值，要尽可能搜索随机取值，特别是在超参数非常多，搜索维度特别大的时候。搜索的过程是从粗到细的，找到几个比较好的取值后，缩小搜索范围进一步精化范围。
在这里插入图片描述

二、为超参数选择合适的范围

适当的搜索标尺
如果是为隐藏单元个数或网络层数选值，很好办，在考虑范围内随机取值对比即可。那么学习率呢？学习率最小可以取0.0001，最大可以取1，在这个范围内测试的话，90%的搜索资源用在了0.1到1之间，对吧，这样看上去似乎不合理，如图。
在这里插入图片描述
不采用这种线性坐标轴呢，我们采用对数标尺坐标轴，也就是每10倍在坐标轴标记一次，这样搜索的几率更平等了，如图。

其实这一点大家很容易想到，在该课程中用更科学的表述讲述了这个道理。
在Python中是怎么样实现这种随机数的？

r = -4 * np.random.rand()
alpha = 10 ** r

第一行代码中 $r\in [-4,0]$ ，
第二行代码中 $alpha\in [10^{-4},1].$

指数加权平均参数的搜索
对于 $\beta$ ，并不是那么好对付。我们期望从0.9到0.999中选取最佳值，应该怎么做？当然不能线性划分（其实也不是那么“当然”，不能用线性轴的原因是当取值接近1的时候，结果的敏感度会很高，和前部分的敏感度是不同的，所以不能用线性轴搜索），那么借助上一例中的0.001到0.1可以解决问题。
$r\in [-3,-1]$