一、学习率
如果学习率过大,容易引起梯度爆炸,Loss的振幅过大,导致模型难以收敛
如果学习率过小,模型训练时间过长,容易陷入局部最优点。
一般都是使用动态调整学习率的方法,这里介绍几种pytorch里torch.optim.ir_scheduler中常用的学习率调整策略
1.等间隔调整学习率StepLR
torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)
每过step_size个epoch就调整一下学习率
2.按需调整学习率MultiStepLR
torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)
milestones是一个列表,里面存着epoch数,到达这个epoch就调整学习率。
3.指数衰减调整学习率
torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)
lr = lr * gamma**epoch,gamma是学习率调整倍数的底,指数为epoch
4.余弦退火调整学习率CosineAnnealingLR
torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)
以2-Tmax为周期,在一个周期内先下降,后上升。T_max 个 epoch 之后重新设置学习率
5.自适应调整学习率ReduceLROnPlateau
torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)
当指标不再变化的时候再调整学习率。如:当验证集的loss不再下降时,进行学习率调整,或监测验证集的accuracy,当accuracy不再上升时,则调整学习率
二、batch_size
不能设置的太大或者太小,最常用的就是几十到几百。
如果数据集较小,使用小的batch_size会受到噪声数据的影响,而数据集比较大时这个问题就会被冲淡,但batch_size较小时,模型收敛比较曲折,需要的时间多。同时如果应用BN时,batch_size越大越好,这样他的均值和方差才更符合整个数据集的分布。当计算机超载时,减小batch_size。同时GPU对2的幂次的batch可以发挥更佳的性能,因此设置成16、32、64、128等效果更好