基于Python的深度学习理论与实现（P5——mini-batch学习）

最新推荐文章于 2024-04-23 19:00:50 发布

JoJo的奇妙代码

最新推荐文章于 2024-04-23 19:00:50 发布

阅读量788

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/p_zzzzzz/article/details/102576598

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

mini-batch

深度学习使用训练数据进行学习，严格来说，就是针对训练数据计算损失函数的值，找出使该值尽可能小的参数。因此，如果训练数据有100个的话，我们就要将这个100个损失函数（LOSS function）的总和作为学习指标，有的时候也会将这个总的学习指标称为代价函数（COST function）。
以交叉熵函数为例，如果要就计算n个训练数据的损失函数的和，就应该写成以下形式：
$\frac{1}{N} \sum_{n} \sum_{k}t_{nk}log(y_{nk})$
其中，假设数据有n个，t_nk表示第n个监督数据的第k个元素的值，y_nk表示第n个神经网络输出数据的第k个元素的值。
这个式子只是将单个数据的损失函数扩大到了n份损失函数的和，不过最后为了正规化将这个和除以了n，这样可以求单个数据的平均损失函数，从而获得和训练数据的数量无关的统一指标。
那么在实际的神经网络训练中，这个n应该怎么取呢？也就是说，我们要用多少个数据作为一个batch（批），用这个batch的损失函数和（代价函数）来作为神经网络的学习依据呢？
前面提到过，我们将数据集分为了训练集和测试集（或者是训练集、验证集和测试集），往往一个训练集的数量是非常庞大的，例如MNIST数据集的训练数据有六万个之多，如果我们将这六万个数据作为一个batch，那么计算代价函数的过程会变得十分漫长，而且可能出现局部最优的情况（即参数下降到某一个点就不能继续往最优点下降了），还会导致模型的泛化能力降低。但是如果batch太小，会导致随机性变强（为什么会导致随机性变强后面会提到），难以收敛。
具体的batch大小是一个需要根据实际应用进行实验性探究的问题。现在我们假设一个batch为100个数据，那么我们从所有训练数据中随机选择100个数据（对于MNIST中六万个训练数据就有600个batch）作为一个batch进行学习，这种学习方式称为mini-batch学习。