深度学习中Epoch、Batch以及Batch size的设定

梦在黎明破晓时啊

已于 2023-08-16 23:38:17 修改

阅读量2.3k

点赞数 2

分类专栏：深度学习/机器学习的相关知识概念文章标签：深度学习 batch 人工智能

于 2023-06-12 22:49:04 首次发布

本文链接：https://blog.csdn.net/qq_39522016/article/details/131178317

版权

深度学习/机器学习的相关知识概念专栏收录该内容

26 篇文章 2 订阅

订阅专栏

Epoch（时期）：

当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次>epoch。（也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播）。再通俗一点，一个Epoch就是将所有训练样本训练一次的过程。
然而，当一个Epoch的样本（也就是所有的训练样本）数量可能太过庞大（对于计算机而言），就需要把它分成多个小块，也就是就是分成多个Batch 来进行训练。**

*Batch（批 / 一批样本）：*将整个训练样本分成若干个Batch。
*Batch_Size（批大小）：*每批样本的大小。
*Iteration（一次迭代）：*训练一个Batch就是一次Iteration（这个概念跟程序语言中的迭代器相似）

为什么要使用多于一个epoch?
在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降来优化学习过程。如下图所示。因此仅仅更新一次或者说使用一个epoch是不够的。
在这里插入图片描述
随着epoch数量增加，神经网络中的权重的更新次数也在增加，曲线从欠拟合变得过拟合。

那么，到底多少个epoch最合适，这个问题没有正确答案，对于不同的数据集，答案都不相同。

Batch Size

直观的理解：

Batch Size定义：一次训练所选取的样本数。

Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况，假如GPU内存不大，该数值最好设置小一点。

我们怎么理解batch size和epoch的关系呢？
可以通过一个例子来说明，假设我们有
Batch size ：B = 30
训练数据的行数 : |x| = 3000
Epoch 为500次。
这代表了，每次神经网络的升级是使用了30个样本，这30个样本来自于对3000个样本有序或无序的抽样。
每个epoch包含了100（3000/30）次iteration，一共500个epoch

为什么要提出Batch Size？

在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。

在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

Batch Size合适的优点：

1、通过并行化提高内存的利用率。就是尽量让你的GPU满载运行，提高训练速度。

2、单个epoch的迭代次数减少了，参数的调整也慢了，假如要达到相同的识别精度，需要更多的epoch。

3、适当Batch Size使得梯度下降方向更加准确。

Batch Size如何设定？

先说结论，
较大的batch size往往会导致训练速度更快（每个epoch的iteration数小），内存占用更大，但收敛得慢（需要更多epoch数）。
较小的batch size往往会导致训练速度更慢（每个epoch的iteration数大），内存占用更小，但收敛得快（需要更少epoch数）。
在epoch数相同的情况下，小batch size的模型往往会比大batch size的模型训练得更慢。

Batch Size从小到大的变化对网络影响

1、没有Batch Size，梯度准确，只适用于小样本数据库

2、Batch Size=1，梯度变来变去，非常不准确，网络很难收敛。

3、Batch Size增大，梯度变准确，

4、Batch Size增大，梯度已经非常准确，再增加Batch Size也没有用

注意：Batch Size增大了，要到达相同的准确度，必须要增大epoch。

GD（Gradient Descent）：就是没有利用Batch Size，用基于整个数据库得到梯度，梯度准确，但数据量大时，计算非常耗时，同时神经网络常是非凸的，网络最终可能收敛到初始点附近的局部最优点。

SGD（Stochastic Gradient Descent）：就是Batch Size=1，每次计算一个样本，梯度不准确，所以学习率要降低。

mini-batch SGD：就是选着合适Batch Size的SGD算法，mini-batch利用噪声梯度，一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了，学习率要加大。

本篇文章为在知乎上学习到的内容，担心网址失效，不作抄袭，不涉及商业，只作为自己学习中的记录搬运。

梦在黎明破晓时啊

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习中Epoch、Batch以及Batch size的设定

当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次>epoch。（也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播）。再通俗一点，一个Epoch就是将所有训练样本训练一次的过程。然而，当一个Epoch的样本（也就是所有的训练样本）数量可能太过庞大（对于计算机而言），就需要把它分成多个小块，也就是就是分成多个Batch 来进行训练。***Batch（批 / 一批样本）：*将整个训练样本分成若干个Batch。
复制链接

扫一扫