Kaggle调参技巧整理

最新推荐文章于 2025-04-10 07:10:11 发布

微信公众号[机器学习炼丹术]

最新推荐文章于 2025-04-10 07:10:11 发布

阅读量1.3k

点赞数

分类专栏： Kaggle实战笔记文章标签：深度学习机器学习算法神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34107425/article/details/103708560

版权

Kaggle实战笔记专栏收录该内容

28 篇文章

订阅专栏

Adam:
init_lr=5e-4(3e-4)（⭐⭐⭐⭐⭐），3e-4号称是Adam最好的初始学习率，有理有据，请看下图；SGD就更考验调参功力，这里就不详说（因为我也一般般）。
finetune，微调也是有许多比较fancy的技巧，在这里不做优劣比较，针对分类任务说明。

微调方式一，最常用，只替换掉最后一层fc layer，改成本任务里训练集的类别数目，然后不做其余特殊处理，直接开始训练；
微调方式二，在微调一的基础上，freeze backbone的参数，只更新（预训练）新的fc layer的参数（更新的参数量少，训练更快）到收敛为止，之后再放开所有层的参数，再一起训练；
微调方式三，在微调方式二预训练fc layer之后或者直接就是微调方式一，可选择接上差分学习率（discriminative learning rates）即更新backbone参数和新fc layer的参数所使用的学习率是不一致的，一般可选择差异10倍，理由是backbone的参数是基于imagenet训练的，参数足够优秀同时泛化性也会更好，所以是希望得到微调即可，不需要太大的变化。
微调方式四，freeze浅层，训练深层（如可以不更新resnet前两个resnet block的参数，只更新其余的参数，一样是为了增强泛化，减少过拟合）。

Find the best init_lr，前面说到3e-4在Adam是较优的init_lr，那么如何寻找最好的init_lr？

选取loss function仍在明显降低的较大的学习速率，优劣性其实也是相对而言，不一定都是最好的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。