深度学习调参技巧｜ kaggle 全球排名35th导师分享

布尔艺数

已于 2022-10-25 15:33:49 修改

阅读量439

点赞数 1

分类专栏：导师刊文文章标签：深度学习人工智能

于 2022-10-20 22:35:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Boolart/article/details/127436642

版权

本文由Kaggle全球排名35的导师分享深度学习调参心得，涵盖模型能力、学习率、批次大小、Dropout、初始化方法、正则化、数据增强、随机种子、交叉验证、优化器选择等方面，强调先过拟合再做权衡，并指出不要过早停止训练。

摘要由CSDN通过智能技术生成

作者简介：布尔艺数合作导师，Kaggle Competition Master 全球排名35，前一线互联网公司算法专家，擅长多模态学习、CV、NLP、表示学习等领域。

KKY分享调参心得：

先overfit 再trade off，首先保证你的模型capacity能够过拟合，再尝试减小模型，各种正则化方法；
lr ，最重要的参数，一般nlp bert类模型在1e-5级别附近，warmup，衰减；cv类模型在1e-3级别附近，衰减；具体需要多尝试一下；
batch size 在表示学习，对比学习领域一般越大越好，显存不够上累计梯度，否则模型可能不收敛… 其他领域看情况；
dropout，现在大部分任务都需要使用预训练模型，要注意模型内部dropout ratio是一个很重要的参数，使用默认值不一定最优，有时候dropout reset到0有奇效；
初始化方法，linear / cnn一般选用kaiming uniform 或者normalize，embedding 一般选择截断 normalize，论文很多，可以去看看；
序列输入上LN，非序列上BN；
基于banckbone 构建层次化的neck 一般都比直接使用最后

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。