【深入浅出pytorch-task2】-玄学batchsize

数据框

已于 2022-07-18 00:19:00 修改

阅读量2.5k

点赞数 9

文章标签： pytorch 机器学习深度学习

于 2022-07-14 15:58:11 首次发布

本文链接：https://blog.csdn.net/kkz2756275580/article/details/125780318

版权

关于BatchSize的一些总结

一、什么是batchsize？

batch（批量），设置batchsize（又简称bs）的目的在于模型训练的过程中每次选择批量的数据进行处理，bs简单理解为一次采样训练的样本数。设置bs的大小与你个人电脑GPU显存有关，bs越大，需求GPU显存越高。

bs的选取直接影响到模型的优化程度以及训练速度

二、为什么需要batchsize？

如果不使用batchsize，每次训练时我们会把全部数据集投入进行训练，小数据集还好，如果是大型数据集，一次载入全部数据可能会内存爆炸。
单次使用全部数据进行训练，得到的梯度下降方向是准确的，但是这种情况下计算得到不同梯度值差别较大，难以使用全局学习率，所以选择使用batchsize来进行单独的梯度更新，这样即使全部数据中包含异常值，也不会对训练造成整体偏差，而是通过bs做局部调整
在这里插入图片描述

使用大的batch难以计算

三、batchsize为何选取2的幂次？

比赛时我们通常不会关心这个问题，因为前人的经验告诉我们选取16，32，64，128等等会提高训练效率，那么为什么要这样选取？

Sebastion Raschka对此的讨论如下：

3.1.内存对齐（理论基础）

由于CPU和GPU的内存架构是以2的幂次进行组织的，或者说，存在一个叫做“内存页”的概念，本质上是一个连续的内存块，然后batchsize为2的幂次时，我们能够方便的将这些批次整齐的放在一个页面上，从而帮助GPU并行处理。这能够做到更好的内存对齐。

简单的来讲，如果内存没有对齐，数据的读取将被编译器拆分为多次操作，这将会降低访存性能。

3.2.矩阵的运算要求（浮点效率）

尽量设置batchsize为8的倍数，由于矩阵运算中，我们通常会用到矩阵乘法，如下两个矩阵A和B相乘时
请添加图片描述

计算A的行向量与B的列向量的点积，每次都由一个 “加” 操作和一个 “乘” 来完成
请添加图片描述
由上图，我们知道一共有2MNK次浮点数运算，当我们在英伟达的GPU上进行FP16混合精度训练的情况下，我们更希望2M满足16的倍数，也即M满足8的倍数，这样效果最佳（N和K由网络架构来决定，而M，也即批次，是由我们自己来决定的超参数），所以我们选择bs时，通常从16,32开始

3.3batchsize的2的幂次总结

不认为选择批大小作为2的幂次或者8的倍数在实践中会产生明显的差异，但是在庞大的超参数选择中，缩小选择的范围，有助于我们去研究网络架构本身，而不是做着从1调到512甚至1024这些看起来玄乎其玄的工作。同时做研究时，我们选择2的幂次而不是随意的选择一些数，这能让我们的研究看起来不像是因为这些小的改动而变得更加精妙。

最佳批大小在很大程度上取决于神经网络架构与损失函数，如果考虑调整超参数作为上分或是科研的重要选择，同时内存限制512批次时，我们可以考虑500而不是256，500的大小也是完全可行的