mini-batch
深度学习使用训练数据进行学习,严格来说,就是针对训练数据计算损失函数的值,找出使该值尽可能小的参数。因此,如果训练数据有100个的话,我们就要将这个100个损失函数(LOSS function)的总和作为学习指标,有的时候也会将这个总的学习指标称为代价函数(COST function)。
以交叉熵函数为例,如果要就计算n个训练数据的损失函数的和,就应该写成以下形式:
E
=
−
1
N
∑
n
∑
k
t
n
k
l
o
g
(
y
n
k
)
E=- \frac{1}{N} \sum_{n} \sum_{k}t_{nk}log(y_{nk})
E=−N1n∑k∑tnklog(ynk)
其中,假设数据有n个,tnk表示第n个监督数据的第k个元素的值,ynk表示第n个神经网络输出数据的第k个元素的值。
这个式子只是将单个数据的损失函数扩大到了n份损失函数的和,不过最后为了正规化将这个和除以了n,这样可以求单个数据的平均损失函数,从而获得和训练数据的数量无关的统一指标。
那么在实际的神经网络训练中,这个n应该怎么取呢?也就是说,我们要用多少个数据作为一个batch(批),用这个batch的损失函数和(代价函数)来作为神经网络的学习依据呢?
前面提到过,我们将数据集分为了训练集和测试集(或者是训练集、验证集和测试集),往往一个训练集的数量是非常庞大的,例如MNIST数据集的训练数据有六万个之多,如果我们将这六万个数据作为一个batch,那么计算代价函数的过程会变得十分漫长,而且可能出现局部最优的情况(即参数下降到某一个点就不能继续往最优点下降了),还会导致模型的泛化能力降低。但是如果batch太小,会导致随机性变强(为什么会导致随机性变强后面会提到),难以收敛。
具体的batch大小是一个需要根据实际应用进行实验性探究的问题。现在我们假设一个batch为100个数据,那么我们从所有训练数据中随机选择100个数据(对于MNIST中六万个训练数据就有600个batch)作为一个batch进行学习,这种学习方式称为mini-batch学习。