1.batch_size调整
batch_size调整小了的影响:
区别:在于变化的趋势,一个快,一个慢。在显存能允许的情况下,同样epoch的树木,batchsize大的需要的batch数目减少,因此训练时间也减少了。大的batchsize梯度计算的更加稳定,模型的训练曲线可能会更加的平滑。微调的时候大的batchsize可能会取得更好的结果。模型性能但可能会下来。
大的batchsize减少训练的时间,提高稳定性。
小的batchsize引入随机性的机会大一些,具有更好地泛化能力,
固定lr,存在一个最优的batchsize能够最大化test的acc
策略:batchsize增加N倍,为了保证经过同样样本后更新的权重相等,按照 线性缩放规则,lr也应该增加为原来的N倍(尽量使用比较的大学习率 更加有竞争效果 收敛更稳定 大的lr有利于提高泛化能力)
2.BN层 affine=FALSE(不更新BN层的参数)
CUDA:CUDA out of memory. Tried to allocate 100.00 MiB (GPU 0; 15.78 GiB total capacity; 14.24 GiB al
最新推荐文章于 2024-06-13 23:10:33 发布