深度学习中超参数设置

SupremeNO.1

已于 2024-05-11 11:47:29 修改

阅读量205

点赞数 8

文章标签：深度学习人工智能

于 2024-05-10 18:09:22 首次发布

本文链接：https://blog.csdn.net/Supremelv/article/details/138675770

版权

1、batchsize

在训练深度学习模型时，batch size（批大小）和 epochs（迭代次数）之间的关系取决于您的数据集大小、模型复杂度、计算资源等因素。下面是一些一般性的指导原则：
较大的 Batch Size：通常可以带来更高的训练速度，因为可以利用矩阵运算的并行性。
较小的 Batch Size：可以提供更好的梯度估计，有助于模型更快地收敛。此外，较小的批大小可以在内存方面更加高效。
batchsize过小
尽量要和模型复杂度相互匹配

不稳定的梯度更新：较小的批量大小会导致每个小批量中的样本数量有限，这可能会导致梯度估计的不稳定性。不稳定的梯度更新可能会使模型训练变得更加困难，甚至导致训练过程中的梯度爆炸或梯度消失问题。
训练速度变慢：较小的批量大小会导致模型每个epoch需要更多的参数更新步骤，从而增加训练时间。这可能会导致训练过程变慢，特别是在大规模数据集上。
波动的训练损失：由于小批量大小的使用，每个小批量的梯度估计可能会有较大的方差，这可能导致训练过程中损失函数的波动性增加。这可能会使训练过程中的收敛速度变慢。
过拟合风险：较小的批量大小可能会增加模型对训练数据的过拟合风险，特别是在训练数据集较小的情况下。模型可能会更容易记住每个小批量中的样本，而不是学习到泛化能力更强的特征。
准确度下降：在某些情况下，较小的批量大小可能会导致模型在训练数据上的准确度下降，因为模型无法从足够大的样本集合中学习到有效的特征表示。

在num_epochs固定时，batchsize设置的小，lr就要设置的小：
- 比如batchsize从64–>32，此时，每个epoch的迭代次数就要翻一倍，如果学习；率设置过大，将会导致收敛速度过快，trainloss会出现振荡的现象，模型训练不稳定，此时应该减小学习率，使loss收敛更加平滑。此时，num_epochs也应该增加，使模型有更多的迭代次数。
- 一般优先设置batchsize，以充分的利用GPU资源，一般batchsize尽量往大的调，GPU内存占用75%左右即可。然后再调LR，在没有使用预训练权重的情况下，尽可能多的增加num_epochs，更多的迭代。一般来讲，LR越小越好，num_epochs越大越好。

关注