超参数调试

最新推荐文章于 2023-08-03 16:00:37 发布

MoonLord0525

最新推荐文章于 2023-08-03 16:00:37 发布

阅读量528

点赞数

分类专栏：改善深层神经网络文章标签：机器学习深度学习人工智能神经网络

本文链接：https://blog.csdn.net/qq_40459859/article/details/106770109

版权

改善深层神经网络专栏收录该内容

7 篇文章 0 订阅

订阅专栏

调试处理

神经网络的改变会涉及到许多不同超参数的设置。

实验表明，一些超参数比其它的更为重要。学习率α是需要调试的最重要的超参数。momentum中的β，隐层中的单元数以及mini-batch的大小是其次比较重要的。重要性排第三位的是层数，学习率衰减。在使用Adam算法是β1、β2以及ε通常使用默认值。

在深度学习领域，我们通常随机选择点，接着用这些随机点试验超参数的效果。因为对于要解决的问题而言，很难提前知道哪个超参数最重要。我们使用随机取值而不是网格取值表明，我们研究了更多重要超参数的潜在值。

我们给超参数取值的另一个原则是采用由粗糙到精细的策略。

超参数调试优先级
第一优先级	α
第二优先级	β1、hidden units、mini-batch size
第三优先级	layers、learning rate decay
使用默认值	β1、β2、ε

为超参数选择合适的范围

在超参数范围中随机取值可以提升搜索效率。但随机取值并不是在有效范围内的随机均匀取值，而是选择合适的标尺。

假设在搜索超参数α，我们怀疑其最小值是0.0001或最大是1，我们会画一条从0.0001到1的数轴，沿其随机均匀取值，那么90%的数值会落到0.1和1之间。结果就是在0.1到之间应用了90%的资源，而在0.0001到0.1之间只有10%的搜索资源。相反，用对数标尺搜索超参数的方式会更合理。在对数数轴上去随机点，在0.0001到0.001之间会有更多的搜索资源可用。