Epoch，Batch，Iteration的概念和不相等的情况。

最新推荐文章于 2024-07-08 00:01:13 发布

编程爱好者ccc

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量49

点赞数 2

文章标签： batch python 深度学习

本文链接：https://blog.csdn.net/qq_43243539/article/details/134672752

版权

具体说一下（Epoch，Batch，Iteration）概念

Epoch（训练多少轮）, Batch（每次输入网络样本的个数）, Iteration（迭代次数）。
下面有个例子：
CIFAR10 数据集有 50000 张训练图片，10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。
每个 Epoch 要训练的图片数量：50000
训练集具有的 Batch 个数：50000 / 256 = 195 + 1 = 196
每个 Epoch 需要完成的 Batch 个数：196
每个 Epoch 具有的 Iteration 个数：196
每个 Epoch 中发生模型权重更新的次数：196
训练 10 代后，模型权重更新的次数：196 * 10 = 1960
从上面可以看出，Batch和Iteration数量相等，然而这是大部分情况下相等。有些时候可以不等。

1.先说Batch和Iteration数量为什么大部分情况下相等。

class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data
    def __getitem__(self, index):
        # 根据索引获取样本
        return self.data[index]
    def __len__(self):
        # 返回数据集大小 一般写法
        return len(self.data)
        # return 1000
train_loader = torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=True, num_workers=0)
for sample_batched in enumerate(train_loader):
    ...

我们定义自己数据集的类：class MyDataset(Dataset):
里面必须要实现一个方法def__len__(self): return len(self.data)。

一般情况这里的__len__(self)返回的是数据集总大小(假设总共有500条数据)。
然后我们会使用train_loader=torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=True, num_workers=0)来选择训练数据。

下面来具体提取数据,使用代码循环提取数据：for sample_batched in enumerate(train_loader):
由于shuffle设为True，所以这里的train_loader会从（0，500）的区间随机选一个数值(假设选200)（因为batch_size=1，所以选一个）。

然后将200这个数值索引送入Dataset中的函数def__getitem__(self, index):找到数据，结束。
由于__len__(self)返回500，所以上述过程随机总共执行500次Iteration，即Batch和Iteration数量相等。