调参技巧总结

最新推荐文章于 2024-06-26 09:57:52 发布

judgechen1997

最新推荐文章于 2024-06-26 09:57:52 发布

阅读量643

点赞数

分类专栏：深度学习理论文章标签： DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/judgechen1997/article/details/100831375

版权

深度学习理论专栏收录该内容

10 篇文章 1 订阅

订阅专栏

调参技巧总结

1.归一化
2.激活函数
3.初始化
4.是否使用预训练
5.froze layes
6.数据量和lr的关系
7.学习策略
8.batchsize的影响
9.衰减因子

1.归一化

当batch很小，又不做归一化时，data容易出现忽正忽负的情况，w也会出现全正或者全负，往一边偏很麻烦

2.激活函数

大数据集时，ReLu的缺点暴露出来了，很多神经元变为0，梯度消失（水爷说有实验，换了ReLu，提升几个点）

3.初始化

（1）all zeros
（2）a*N(0, 1) 高斯分布，早些年，a的设置非常重要
（3）Xavier
（4）kaiming
FC一般用（2）；conv用（3）（4）

4.是否使用预训练

数据量小，用pre-train才有意义。如果dataset和预训练的其他数据集本身就是一个量级的，就没必要用预训练模型，直接上就完事了

5.froze layes

预训练一个常见的用法是，froze固定住backbone，fine-tune后面的。Data少，需要多froze一些层，fine-tune少部分。数据场景差异较大时，固定的layers数也要减少，多fine-tune一些

6.数据量和lr的关系

数据量大，lr调的大一些。ResNet训练ImageNet，default lr=0.1
Data少，或是fine-tune，学习率一般小一点

7.学习策略

SGD效果好但是收敛慢，收敛速度Adam > SGD
难收敛的model，可以先Adam再SGD；
或者warm up策略，先小lr学习一会儿，逐步增大到基础lr(densepose的学习策略就是这样)，减少收敛时间

8.batchsize的影响

太大，（1）可能会影响泛化性，因为当足够大时，倾向于直接拟合整个数据集（2）虽然需要的迭代次数减少，但是达到同样最优点，花费时间变多了（3）batch太大有时候会停在鞍点或者局部最优，因为他的方向比较稳
太小，（1）梯度下降不准，随机性大，有时候难以收敛（2）没有充分利用到计算性能，收敛时间太长
所以batch真的是，太大或太小都会导致收敛效果不好还花了很多时间。

9.衰减因子

将参数w约束在一定的范围内，防止梯度变化过大，曲线剧烈扭动，出现过拟合
然而在模型参数较少时，比如只fine-tune一部分，需要将衰减因子设的小一点，参数少一般不容易过拟合，衰减限制太大发现可能根本拟合不了数据

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
调参技巧总结

调参技巧总结1.归一化2.激活函数3.初始化4.是否使用预训练5.froze layes6.数据量和lr的关系7.学习策略8.batchsize的影响9.衰减因子1.归一化当batch很小，又不做归一化时，data容易出现忽正忽负的情况，w也会出现全正或者全负，往一边偏很麻烦2.激活函数大数据集时，ReLu的缺点暴露出来了，很多神经元变为0，梯度消失（水爷说有实验，换了ReLu，提升几个点...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。