深度学习中学习率和batch_size的设定

一、学习率

如果学习率过大,容易引起梯度爆炸,Loss的振幅过大,导致模型难以收敛

如果学习率过小,模型训练时间过长,容易陷入局部最优点。

一般都是使用动态调整学习率的方法,这里介绍几种pytorch里torch.optim.ir_scheduler中常用的学习率调整策略

1.等间隔调整学习率StepLR

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

每过step_size个epoch就调整一下学习率

2.按需调整学习率MultiStepLR

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)

milestones是一个列表,里面存着epoch数,到达这个epoch就调整学习率。

3.指数衰减调整学习率

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

lr = lr * gamma**epoch,gamma是学习率调整倍数的底,指数为epoch

4.余弦退火调整学习率CosineAnnealingLR 

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

以2-Tmax为周期,在一个周期内先下降,后上升。T_max 个 epoch 之后重新设置学习率

5.自适应调整学习率ReduceLROnPlateau

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

当指标不再变化的时候再调整学习率。如:当验证集的loss不再下降时,进行学习率调整,或监测验证集的accuracy,当accuracy不再上升时,则调整学习率

二、batch_size

不能设置的太大或者太小,最常用的就是几十到几百。

如果数据集较小,使用小的batch_size会受到噪声数据的影响,而数据集比较大时这个问题就会被冲淡,但batch_size较小时,模型收敛比较曲折,需要的时间多。同时如果应用BN时,batch_size越大越好,这样他的均值和方差才更符合整个数据集的分布。当计算机超载时,减小batch_size。同时GPU对2的幂次的batch可以发挥更佳的性能,因此设置成16、32、64、128等效果更好

根据引用,在以前的实验学习率batchsize通常是成正比例变化的。也就是说,如果batchsize增加,学习率也会相应增加。这是因为较大的batchsize可以提供更多的样本信息,并且需要更大的学习率来更新参数以获得更好的训练效果。 然而,根据引用,有一种被称为梯度累加的技巧可以实现batchsize的变相扩大。通过设置一个称为accumulation_steps的参数,可以将batchsize扩大多倍。在这种情况下,学习率设置可能需要相应地调整,以适应扩大后的batchsize。因此,当使用梯度累加时,扩大batchsize可能会对学习率产生影响。 另外,根据引用的描述,学习率对训练结果的影响可能会因网络结构的不同而有所差异。在一些实验,即使在相同的全局batchsize下,单机多卡和多机多卡的训练结果仍然存在较大的差异。这表明,学习率设定可能需要根据具体的网络结构和训练环境进行调整。 综上所述,当batchsize发生变化时,学习率的调整可能是需要考虑的因素,尤其在使用梯度累加或不同的网络结构和训练环境下。具体的调整策略可能需要根据实际情况进行评估和实验。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [深度学习多机多卡batchsize学习率的关系](https://blog.csdn.net/qq_37668436/article/details/124293378)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [深度学习batch_size学习率 及如何调整](https://blog.csdn.net/pipisorry/article/details/109192443)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVplayer111

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值