DataLoader 与DataSet(读取数据)
(之前我们是直接把所有数据都丢进模型中去,但实际过程中数据可能很大)
dataloader包含sampler(用来生成索引index)和DataSet(根据索引查找)
torch.utils.data.Dataset:
一个抽象类,所有自定义的Dataset需要继承它,并且复写__getitem__()方法(接受一个索引,返回一个列表)
这个类主要就是得到一个一个的数据
torch.utils.data.DataLoader:
常用参数:dataset:DataSet类,决定数据从哪读以及如何读。
batchsize:批大小 (每个Iteration有多少个数据, 决定一个epoch有多少个Iteration,一批样本输入到模型中,称为一个Iteration)
num_works:是否采用多进程读取数据
shuffle:每个epoch是否乱序(所有训练样本都输入到模型中