深度学习中的超参数优化

最新推荐文章于 2024-05-26 12:01:14 发布

幸运六叶草

最新推荐文章于 2024-05-26 12:01:14 发布

阅读量1k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AnneQiQi/article/details/104015219

版权

深度学习专栏收录该内容

38 篇文章 5 订阅

订阅专栏

构建深度学习模型时，你必须做出许多看似随意的决定：应该堆叠多少层？每层包含多少个单元或过滤器？激活函数应该使用relu还是其他函数？在某一层之后是否应该使用BatchNormalization？应该使用多大的dropout比率？还有很多，这些在架构层面的参数叫做超参数（hyperparameter），以便将其与模型参数区分开来，后者通过反向传播进行训练。

在实践中，经验丰富的实战者凭着直觉能够判断上述选择哪些可行、哪些不可行。但是调节超参数并没有正式成文的规则。如果想要在某项任务上达到最佳性能，就不能满足于一个容易犯错的人随意做出的选择。即使你拥有很好的直觉，最初的选择也几乎不可能是最优的。

因此，我们需要制定一个原则，系统性的自动探索可能的决策空间。超参数优化过程通常如下所示。

1）选择一组超参数（自动选择）。

2）构建相应的模型。

3）将模型在训练数据上拟合，并衡量其在验证数据上的最终性能。

4）选择要尝试的下一组超参数（自动选择）。

5）重复上述过程。

6）最后，衡量模型在测试数据上的性能。

这个过程的关键在于，给定许多组超参数，使用验证性能的历史来选择下一组需要评估的超参数算法。有多种不同的技术可供选择：贝叶斯优化、遗传算法、简单随机搜索等。

训练模型权重相对简单：在小批量数据上计算损失函数，然后用反向传播算法让权重向正确的方向移动。与此相反，更新超参数则非常具有挑战性。

1）计算反馈信号（这组超参数在这个任务上是否得到了一个高性能的模型）的计算代价可能非常高，他需要在数据集上创建一个新模型并从头开始训练。

2）超参数空间通常由许多离散的决定组成，因而既不是连续的，也不是可微的。因此，你通常不能在超参数空间中做梯度下降。相反，你必须依赖不使用梯度的优化方法，而这些方法的效率比梯度下降要低很多。

幸运六叶草

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的超参数优化

构建深度学习模型时，你必须做出许多看似随意的决定：应该堆叠多少层？每层包含多少个单元或过滤器？激活函数应该使用relu还是其他函数？在某一层之后是否应该使用BatchNormalization？应该使用多大的dropout比率？还有很多，这些在架构层面的参数叫做超参数（hyperparameter），以便将其与模型参数区分开来，后者通过反向传播进行训练。在实践中，经验丰...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。