1. 名词解释
Step: 训练模型的步数
Batch Size(批尺寸): 计算梯度所需的样本数量,太小会导致效率低下,无法收敛。太大会导致内存撑不住,Batch Size增大到一定程度后,其下降方向变化很小了,所以Batch Size是一个很重要的参数。
为什么需要有 Batch_Size :
batchsize 的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。
Epoch(回合):代表样本集内所有的数据经过了一次训练。
每个 epoch 都会进行shuffle,对要输入的数据进行重新排序,分成不同的batch。
Iteration(迭代):
理解迭代,只需要知道乘法表或者一个计算器就可以了。迭代是 batch 需要完成一个 epoch 的次数。记住:在一个 epoch 中,batch 数和迭代数是相等的。
比如对于一个有 2000 个训练样本的数据集。将 2000 个样本分成大小为 500 的 batch,那么完成一个 epoch 需要 4 个 iteration。
2. 换算关系
实际上,梯度下降的几种方式的根本区别就在于上面公式中的 Batch Size不同。
*注:上表中 Mini-Batch 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。
3. 例子
CIFAR10 数据集有 50000 张训练图片,10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。
每个 Epoch 要训练的图片数量: 50000
训练集具有的 Batch 个数: 50000/256 = 195 +1 = 196
每个 Epoch 需要完成的 Batch 个数: 196
每个 Epoch 具有的 Iteration 个数: 196
每个 Epoch 中发生模型权重更新的次数: 196
训练 10 代后,模型权重更新的次数: 196 * 10
不同代的训练,其实用的是同一个训练集的数据。第 代和第 代虽然用的都是训练集的五万张图片,但是对模型的权重更新值却是完全不同的。因为不同代的模型处于代价函数空间上的不同位置,模型的训练代越靠后,越接近谷底,其代价越小。