超参数调优

最新推荐文章于 2024-07-16 14:00:00 发布

lanmengyiyu

最新推荐文章于 2024-07-16 14:00:00 发布

阅读量2.3k

点赞数 1

分类专栏：深度学习相关（cs231n）文章标签：超参数神经网络网格搜索随机搜索

本文链接：https://blog.csdn.net/lanmengyiyu/article/details/79008272

版权

深度学习相关（cs231n）专栏收录该内容

49 篇文章 6 订阅

订阅专栏

超参数调优

超参数调优我们以learning rate和正则强度为例介绍

搜索策略

一般的超参数调优采用分阶段搜索的方式，1.最开始定义一个广泛的搜索区间，以learning rate为例，可以选取[1e-3,1e-6]，正则强度可以选取[1e-5,1e5]，随机抽取若干个组合，进行少次迭代，如1 epoch，从而缩小区间范围。2.如果缩小后的区间为[1e-3,1e-4]和[1e-4,1e0]，这时，进行多一些的迭代，例如5个epoch，得到一个相对较好的区间，如果此时，loss相对较小的的点learning rate都位于1e-3，这可能意味着最初我们选择的[1e-3,1e-6]不太合适，这时，我们应该要重新调整区间，例如调整为[1e-2,1e-3]。不断重复这个过程，缩小搜索区间，而搜索的仔细程度，也就是epoch的次数，也应该增加。最终选择出相对合适的超参数。

learning rate 和正则强度数值选择

在这里，我们一般在对数域随机搜索，这主要是因为，在反向传播的过程中，这两个超参数都是以乘法运算的形式存在的

网格搜索和随机搜索哪个好

网格搜索就是对搜索空间等分，然后逐个空间搜索。随机搜索是在整个搜索空间内随机抽取数值。Bergstra和Bengio在文章Random Search for Hyper-Parameter Optimization中已经说明，随机搜索的方法更好，在这里只做简单解释。
1.每个超参数的重要程度不同，如果以learning rate和正则强度为例，一个参数为x轴，一个为y轴，倘若learning rate更重要，那么我们在网格搜索时，y方向的搜索就会没那么有效，搜索时会出现无用功。如果换种思路，从某种意义上网格搜索如同穷举法，而随机搜索相当于二分查找，可以指数级的降低搜索的复杂程度。