卷积神经网络训练的三个概念Epoch Batch Iteration

最新推荐文章于 2023-10-11 21:13:27 发布

JaneLeeee

最新推荐文章于 2023-10-11 21:13:27 发布

阅读量628

点赞数 1

分类专栏：神经网络学习笔记文章标签： batch cnn 深度学习

原文链接：https://blog.csdn.net/qq_37274615/article/details/81147013*

版权

神经网络学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考：https://blog.csdn.net/qq_37274615/article/details/81147013

1.名词解释

名词	定义
Epoch	使用训练集的全部数据对模型进行一次完整训练，称为“ 一代训练”
Batch	使用训练集的一小部分样本对模型权重进行一次反向传播的参数更新，这一小部分样本称为“ 一批数据”。1个Batch包含的样本的数目，通常设为2的n次幂，常用的包括64/128/256。网络较小时选用256，较大时选用64。
Iteration	使用一个Batch数据对模型进行一次参数更新的过程，即每迭代一次权重更新一次，称为“ 一次训练”。训练时，1个 Batch 训练样本通过网络训练一次（一次前向传播+一次反向传播）；测试时，1个 Batch 测试样本通过网络一次（一次前向传播）。

前向传播：输入→输出，产生误差。搭建模型的计算过程，让模型具有推理能力，可以针对一组输入给出相应的输出。
反向传播：输出→输入，误差信息更新权重矩阵。训练模型参数，在所有参数上用梯度下降，使模型在训练数据上的损失函数最小。

2.换算关系

$Number\ of\ Batches = \frac {Trainning\ Set\ Size} {Batch\ Size}$
梯度下降的几种方式的根本区别就在于上面公式中的Batch Size不同
可参考：https://www.cnblogs.com/lliuye/p/9451903.html

①批量梯度下降 Batch Gradient Descent：在每一次迭代时使用所有样本来进行梯度的更新
②随机梯度下降 Stochastic Gradient Descent：每次迭代使用一个样本来对参数进行更新，使得训练速度加快。
③小批量梯度下降 Mini-Batch Gradient Descent：每次迭代使用Batch Size个样本来对参数进行更新

梯度下降方式	Training Set Size	Batch Size	Number of Batches
批量梯度下降 BGD	N	N	1
随机梯度下降 SGD	N	1	N
小批量梯度下降 MBGD	N	B	$\frac NB+1$

*注：上表中 MBGD 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。

3. 示例

CIFAR10 数据集有 50000 张训练图片，10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。

每个 Epoch 要训练的图片数量：50000
训练集具有的 Batch 个数：50000 / 256 = 195 + 1 = 196
每个 Epoch 需要完成的 Batch 个数：196
每个 Epoch 具有的 Iteration 个数：196
每个 Epoch 中发生模型权重更新的次数：196
训练 10 代后，模型权重更新的次数：196 * 10 = 1960
不同代的训练，其实用的是同一个训练集的数据。第 1 代和第 10 代虽然用的都是训练集的五万张图片，但是对模型的权重更新值却是完全不同的。因为不同代的模型处于代价函数空间上的不同位置，模型的训练代越靠后，越接近谷底，其代价越小。

JaneLeeee

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络训练的三个概念Epoch Batch Iteration

参考：https://blog.csdn.net/qq_37274615/article/details/811470131.名词解释名词定义Epoch使用训练集的全部数据对模型进行一次完整训练，称为“一代训练”Batch使用训练集的一小部分样本对模型权重进行一次反向传播的参数更新，这一小部分样本称为“一批数据”。1个Batch包含的样本的数目，通常设为2的n次幂...
复制链接

扫一扫