Data.DataLoader 舍弃最后一个batch数据

最新推荐文章于 2024-07-21 21:45:32 发布

甜辣uu

最新推荐文章于 2024-07-21 21:45:32 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习bug 文章标签： batch 深度学习 pytorch

本文链接：https://blog.csdn.net/qq_38735017/article/details/130273959

版权

深度学习bug 专栏收录该内容

2 篇文章

订阅专栏

在PyTorch中，可以通过设置`drop_last=True`防止数据加载器在最后一个批次数据不足时抛出错误。这可以应用于训练和测试数据集。另外，可以通过调整数据集的长度为能整除batch_size的值来避免这个问题，或者使用`random_split`函数进行数据集划分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可以在定义dataloader时将drop_last参数设置为True，这样最后一个batch如果数据不足时就会被舍弃，而不会报错。例如：

dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size, drop_last=True)

另外，也可以在数据集的 len 函数中返回整除batch_size的长度来避免最后一个batch报错。

TextCNNDataSet = TextCNNDataSet(np.array(tranin_data_matrx), list(train_text_data_label))
train_size = int(len(tranin_data_matrx) * 0.8)
test_size = len(tranin_data_matrx) - train_size
train_dataset, test_dataset = torch.utils.data.random_split(TextCNNDataSet, [train_size, test_size])

TrainDataLoader = Data.DataLoader(train_dataset, batch_size=Batch_Size, shuffle=True,drop_last=True)
TestDataLoader = Data.DataLoader(test_dataset, batch_size=Batch_Size, shuffle=True,drop_last=True)

关注博主即可阅读全文