pytorch dataloader和batch_size大小的理解

最新推荐文章于 2025-03-27 13:17:03 发布

YoJayC

最新推荐文章于 2025-03-27 13:17:03 发布

阅读量3.1w

点赞数 24

分类专栏： pytorch 文章标签： pytorch 机器学习 python

本文链接：https://blog.csdn.net/YoJayC/article/details/109340277

版权

pytorch中dataloader的大小将根据batch_size的大小自动调整。如果训练数据集有1000个样本，并且batch_size的大小为10，则dataloader的长度就是100。

需要注意的是，如果dataset的大小并不能被batch_size整除，则dataloader中最后一个batch可能比实际的batch_size要小。例如，对于1001个样本，batch_size的大小是10，train_loader的长度len(train_loader)=101，最后一个batch将仅含一个样本。可以通过设置dataloader的drop_last属性为True来避免这种情况。

Pytorch的Dataset提供了得到dataset中单个样本的接口，即通过使用index下标来获得单个样本数据。Dataloader用来提供batch个样本供模型训练

iteration: 1个iteration 等于使用batchsize个样本训练一次

epoch: 1个epoch等于使用训练集中的全部样本训练一次

class MyDataset(Dataset):
    def __init__(self, size):
        self.x = torch.randn(size, 1)
    
    def __getitem__(self, index):
        return self.x[index]

    def __len__(self):
        return len(self.x)

dataset = MyDataset(1001)

data_