深度学习中学习率和batch_size的设定

最新推荐文章于 2024-04-11 00:49:39 发布

CVplayer111

最新推荐文章于 2024-04-11 00:49:39 发布

阅读量1.5k

点赞数

分类专栏：深度学习各项知识整理文章标签：深度学习学习 batch

本文链接：https://blog.csdn.net/slamer111/article/details/127506457

版权

深度学习各项知识整理专栏收录该内容

16 篇文章 1 订阅

订阅专栏

一、学习率

如果学习率过大，容易引起梯度爆炸，Loss的振幅过大，导致模型难以收敛

如果学习率过小，模型训练时间过长，容易陷入局部最优点。

一般都是使用动态调整学习率的方法，这里介绍几种pytorch里torch.optim.ir_scheduler中常用的学习率调整策略

1.等间隔调整学习率StepLR

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

每过step_size个epoch就调整一下学习率

2.按需调整学习率MultiStepLR

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)

milestones是一个列表，里面存着epoch数，到达这个epoch就调整学习率。

3.指数衰减调整学习率

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

lr = lr * gamma**epoch，gamma是学习率调整倍数的底，指数为epoch

4.余弦退火调整学习率CosineAnnealingLR

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

以2-Tmax为周期，在一个周期内先下降，后上升。T_max 个 epoch 之后重新设置学习率

5.自适应调整学习率ReduceLROnPlateau

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

当指标不再变化的时候再调整学习率。如：当验证集的loss不再下降时，进行学习率调整，或监测验证集的accuracy，当accuracy不再上升时，则调整学习率

二、batch_size

不能设置的太大或者太小，最常用的就是几十到几百。

如果数据集较小，使用小的batch_size会受到噪声数据的影响，而数据集比较大时这个问题就会被冲淡，但batch_size较小时，模型收敛比较曲折，需要的时间多。同时如果应用BN时，batch_size越大越好，这样他的均值和方差才更符合整个数据集的分布。当计算机超载时，减小batch_size。同时GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128等效果更好