通常为了能够兼顾神经网络计算效率和精确度,我们需要采用mini_batch的训练方法。
mini_batch方法:
从理论上讲,从所有的训练样本中,选择一条样本进行训练,从训练结果中利用随机梯度下降算法寻找到loss的鞍点(loss的局部最小点),每一条样本就是一个鞍点,那么其鞍点的数量多,那么得到的训练模型更加准确率会更高。但是这样等于是序列循环,执行每次只能执行一条样本数据,严重影响了计算效率,也浪费了GPU分布运算资源。
因此,为了能提高计算效率,我们每次从样本中选取一定数量的样本,同时计算,这样大大提高了计算效率。这个样本数量,这里我们记作batch_size。这个batch_size的值取的太小,则计算效率提高不明白,取得太大,则会影响模型精度。通常取64,128。当然具体还要看数据量和模型本身。
这里我们假设数据集样本总量为10000,batch_size的数量为100。
代码样例:
for epoch in range(epoch_num)
for i in batch_size
# epoch_num,表示总的所有样本的训练次
# batch_size,表示一次从样本中取多少样本进行训练
两层循环:外层表示训练整个数据集的次数,内层表示每次训练batch_size个样本的次数。
epoch:表示神经网络,完成一次forward(前向传播)和一次backward(后向传播)。也就是,跑一次完整10000个训练样本,记作一个epoch。
batch_size:每次从这10000个训练样本中,我们取100个样本,同时进行训练。
iteration:迭代次数,指的是,每次取100个训练样本,需要多少个iteration,才能跑完一整个数据集,这里显然是10000/100=100次。