Step， Batch Size， Iteration，Epoch

最新推荐文章于 2025-03-30 14:24:34 发布

ThinkTimes

最新推荐文章于 2025-03-30 14:24:34 发布

阅读量1.8k

点赞数 1

分类专栏：实验

原文链接：https://www.jianshu.com/p/78646919ed20

版权

1 篇文章

订阅专栏

1. 名词解释

Step: 训练模型的步数

Batch Size（批尺寸）：计算梯度所需的样本数量，太小会导致效率低下，无法收敛。太大会导致内存撑不住，Batch Size增大到一定程度后，其下降方向变化很小了，所以Batch Size是一个很重要的参数。

为什么需要有 Batch_Size :

batchsize 的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

Epoch（回合）：代表样本集内所有的数据经过了一次训练。

每个 epoch 都会进行shuffle，对要输入的数据进行重新排序，分成不同的batch。

Iteration（迭代）：

理解迭代，只需要知道乘法表或者一个计算器就可以了。迭代是 batch 需要完成一个 epoch 的次数。记住：在一个 epoch 中，batch 数和迭代数是相等的。

比如对于一个有 2000 个训练样本的数据集。将 2000 个样本分成大小为 500 的 batch，那么完成一个 epoch 需要 4 个 iteration。

2. 换算关系

实际上，梯度下降的几种方式的根本区别就在于上面公式中的 Batch Size不同。

*注：上表中 Mini-Batch 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。

3. 例子

CIFAR10 数据集有 50000 张训练图片，10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。

每个 Epoch 要训练的图片数量： 50000

训练集具有的 Batch 个数： 50000/256 = 195 +1 = 196

每个 Epoch 需要完成的 Batch 个数： 196

每个 Epoch 具有的 Iteration 个数： 196

每个 Epoch 中发生模型权重更新的次数： 196

训练 10 代后，模型权重更新的次数： 196 * 10

不同代的训练，其实用的是同一个训练集的数据。第代和第代虽然用的都是训练集的五万张图片，但是对模型的权重更新值却是完全不同的。因为不同代的模型处于代价函数空间上的不同位置，模型的训练代越靠后，越接近谷底，其代价越小。