batchsize的选择和学习率调整

batchsize的选择和学习率调整


增大Batch_Size的好处:

  1. 数据的处理速度加快,跑完一次 epoch(全数据集)所需的时间减少。
  2. 在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。尤其是网络中有BN层,过小的batchsize网络性能会急剧下降
  3. 另一方面,大的batch size梯度的计算更加稳定,因为模型训练曲线会更加平滑。在微调的时候,大的batch size可能会取得更好的结果

盲目增大Batch_Size的坏处:

  1. 跑完一次 epoch(全数据集)所迭代的次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。大的batchsize性能下降是因为训练时间不够长,本质上并不少batchsize的问题,在同样的epochs下的参数更新变少了,因此需要更长的迭代次数
  2. Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
  3. 大的batchsize导致模型泛化能力下降,小的batchsize带来的噪声有助于逃离局部极小值。总之batchsize在变得很大(超过临界点)时,会降低模型的泛化能力。在这个临界点之下,模型的性能变换随batchsize通常没有学习率敏感。

batchsize和学习率的关系:

通常当我们增加batchsize为原来的N倍时,要保证经过同样的样本后更新的权重相等,按照线性缩放规则,学习率应该增加为原来的N倍因为许多loss函数是除以了N,所以增大batchsize之后,loss并没有增加,故一样多的样本,却跟新得更少。所以,对于那种增加batchsize,loss也会跟着增大的损失函数,还不能一味的增大lr)。如果要保证权重的方差不变,则学习率应该增加为原来的sqrt(N)倍,目前这两种策略都被研究过,使用前者的明显居多。

从两种常见的调整策略来看,学习率和batchsize都是同时增加的。学习率是一个非常敏感的参数,不可能太大,否则模型会不收敛。同样batchsize也会影响模型性能,那实际使用中都如何调整这两个参数呢?

研究表明,衰减学习率可以通过增加batchsize来实现类似的效果(同样,因为许多loss函数是除以了N),你从从SGD的权重更新式子就可以看出来两者确实是等价的。比如:在pytorch中torch.nn.MSELoss(size_average=True)如果size_average=True, 返回loss.mean();就是平均数如果为False,返回loss.sum(),此时batchsize增大loss也会增大!默认情况下,size_average=true。

两个建议:
如果增加了学习率,那么batchsize最好也跟着增加,这样收敛更稳定(因为batchsize大的话,每一步更新的准确性会更好,也就可以放心的往前走了)。适当使用大的学习率,因为很多研究都表明更大的学习率有利于提高泛化能力。如果要衰减,可以先尝试其他办法,比如增加batchsize,学习率对模型的收敛影响比较大,需慎重且多次调整。

如果大家有更好的观点和建议,希望留言交流!!

  • 18
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
根据引用,在以前的实验中,学习率batchsize通常是成正比例变化的。也就是说,如果batchsize增加,学习率也会相应增加。这是因为较大的batchsize可以提供更多的样本信息,并且需要更大的学习率来更新参数以获得更好的训练效果。 然而,根据引用,有一种被称为梯度累加的技巧可以实现batchsize的变相扩大。通过设置一个称为accumulation_steps的参数,可以将batchsize扩大多倍。在这种情况下,学习率的设置可能需要相应地调整,以适应扩大后的batchsize。因此,当使用梯度累加时,扩大batchsize可能会对学习率产生影响。 另外,根据引用的描述,学习率对训练结果的影响可能会因网络结构的不同而有所差异。在一些实验中,即使在相同的全局batchsize下,单机多卡和多机多卡的训练结果仍然存在较大的差异。这表明,学习率的设定可能需要根据具体的网络结构和训练环境进行调整。 综上所述,当batchsize发生变化时,学习率调整可能是需要考虑的因素,尤其在使用梯度累加或不同的网络结构和训练环境下。具体的调整策略可能需要根据实际情况进行评估和实验。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [深度学习多机多卡batchsize学习率的关系](https://blog.csdn.net/qq_37668436/article/details/124293378)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [深度学习batch_size学习率 及如何调整](https://blog.csdn.net/pipisorry/article/details/109192443)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值