超参数及其优化

超参数及其优化

超参数

下表超参数敏感度由高到低。

超参数如何影响模型容量原因注意事项
学习率调至最优,提升有效容量过高或者过低的学习率,都会由于优化失败而导致降低模型有效容限学习率最优点,在训练的不同时间点都可能变化,所以需要一套有效的学习率衰减策略
损失函数参数调至最优,提升有效容量损失函数超参数大部分情况都会可能影响优化,不合适的超参数会使即便是对目标优化非常合适的损失函数同样难以优化模型,降低模型有效容限对于部分损失函数超参数其变化会对结果十分敏感,而有些则并不会太影响。在调整时,建议参考论文的推荐值,并在该推荐值数量级上进行最大最小值调试该参数对结果的影响
批样本大小过大过小,容易降低有效容量大部分情况下,选择适合自身硬件容量的批样本数量,并不会对模型容限造成在一些特殊的目标函数的设计中,如何选择样本是很可能影响到模型的有效容限的,例如度量学习(metric learning)中的N-pair loss。这类损失因为需要样本的多样性,可能会依赖于批样本数量
丢弃法比率降低会提升模型的容量较少的丢弃参数意味着模型参数量的提升,参数间适应性提升,模型容量提升,但不一定能提升模型有效容限
权重衰减系数调至最优,提升有效容量权重衰减可以有效的起到限制参数变化的幅度,起到一定的正则作用
优化器动量调至最优,可能提升有效容量动量参数通常用来加快训练,同时更容易跳出极值点,避免陷入局部最优解
模型深度同条件下,深度增加,模型容量提升同条件,下增加深度意味着模型具有更多的参数,更强的拟合能力同条件下,深度越深意味着参数越多,需要的时间和硬件资源也越高
卷积核尺寸尺寸增加,模型容量提升增加卷积核尺寸意味着参数量的增加,同条件下,模型参数也相应的增加

超参数优化建议

超参数建议范围注意事项
初始学习率SGD: [1e-2, 1e-1]
momentum: [1e-3, 1e-2]
Adagrad: [1e-3, 1e-2]
Adadelta: [1e-2, 1e-1]
RMSprop: [1e-3, 1e-2]
Adam: [1e-3, 1e-2]
Adamax: [1e-3, 1e-2]
Nadam: [1e-3, 1e-2]
这些范围通常是指从头开始训练的情况。若是微调,初始学习率可在降低一到两个数量级
损失函数参数多个损失函数之间,损失值之间尽量相近,不建议超过或者低于两个数量级这是指多个损失组合的情况,不一定完全正确。单个损失超参数需结合实际情况
批样本数量[1, 1024]当批样本数量过大(大于6000)或者等于1时,需要注意学习策略或者内部归一化方式的调整
丢弃法比率[0, 0.5]
权重衰减系数[0, 1e-4]
卷积核大小7x7, 5x5, 3x3, 1x1, 7x1, 1x7

转载:深度学习超参数介绍及调参

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值