Pytorch数据处理工具箱
数据处理工具箱概述
1.utils.data.Dataset
2.DataLoader:可以批量处理。相关参数介绍如下所示。
dataset | 加载的数据集。 |
batch_size | 批大小。 |
shuffle | 是否将数据打乱。 |
sampler | 样本抽样。 |
num_workers | 使用多进程加载的进程数,0代表不使用多进程。 |
collate_fn | 如何将多个样本数据拼接成一个batch,一般使用默认的拼接方式即可。 |
pin_memory | 是否将数据保存在锁页内存(pin memory区),其中的数据转到GPU会快一些。 |
drop_last | dataset 中的数据个数可能不是 batch_size的整数倍,drop_last为True会将多出来不足一个batch的数据丢弃。 |
2.DataLoader:可以批量处理。