机器学习调参指南：提升模型性能的关键步骤_机器学习如何提高参数在模型中的重要性-CSDN博客

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/134062070

本文介绍了机器学习和深度学习中模型调参的重要步骤，包括学习率与优化器的选择（如Adam与SGD）、batchsize的影响、网格搜索与随机搜索、贝叶斯优化、交叉验证防止过拟合、正则化方法以及实验记录的重要性。作者强调了调参的艺术性和科学性，旨在提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

诸神缄默不语-个人CSDN博文目录

文章目录

1. 学习率 & 优化器
2. batch size
3. 网格搜索
4. 随机搜索
5. 贝叶斯优化
6. 使用交叉验证避免过拟合
7. 考虑正则化
8.
8. 实验和记录
9. 模型的早停法
10. 总结
本文撰写过程中使用到的其他参考资料
其他学习资料

在机器学习和深度学习的领域中，模型的调参（参数优化）是一个至关重要的步骤。良好的参数设置可以显著提升模型的性能。本文将介绍在模型调参过程中的关键步骤和技巧。

1. 学习率 & 优化器

一般来说，越大的batch-size使用越大的学习率。
原理很简单，越大的batch-size意味着我们学习的时候，收敛方向的confidence越大，我们前进的方向更加坚定，而小的batch-size则显得比较杂乱，毫无规律性，因为相比批次大的时候，批次小的情况下无法照顾到更多的情况，所以需要小的学习率来保证不至于出错。

不同batch size对应不同的最优lr：
在这里插入图片描述

大多数采用的优化算法还是adam和SGD+monmentum。

Adam 可以解决一堆奇奇怪怪的问题（有时 loss 降不下去，换 Adam 瞬间就好了），也可以带来一堆奇奇怪怪的问题（比如单词词频差异很大，当前 batch 没有的单词的词向量也被更新；再比如Adam和L2正则结合产生的复杂效果）。用的时候要胆大心细，万一遇到问题找各种魔改 Adam（比如 MaskedAdam[14], AdamW 啥的）抢救。

但看一些博客说adam的相比SGD，收敛快，但泛化能力差，更优结果似乎需要精调SGD。

adam,adadelta等, 在小数据上,我这里实验的效果不如sgd, sgd收敛速度会慢一些，但是最终收敛后的结果，一般都比较好。

如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半. 我看过很多论文都这么搞,我自己实验的结果也很好. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好，adam在生成问题上效果比较好。

adam收敛虽快但是得到的解往往没有sgd+momentum得到的解更好，如果不考虑时间成本的话还是用sgd吧。

adam是不需要特别调lr，sgd要多花点时间调lr和initial weights。