Dataset和DataLoader类
训练模型时,第一层循环就是循环的epoch,第二层循环是DataLoader,从DataLoader中用循环的方式不断取出一个batch的数据,可以把DataLoader看成 [一个batch的数据,一个batch的数据,第三个batch的数据.......]
#训练模型
for epoch in range(num_epoch):
for i ,data in enumerate(loader):
...
dataloder的实例化
每次从dataloder中取出来数据:
#dataloader的实例化
loader = Dataloader(dataset = set,batch_size = 2)
Dataloader类实例化的时候,定义了一个batch的大小。Dataset就是定义每个batch的数据,例如:
class MyDataSet1(Dataset):
def __init__(self):
self.data = ["你","是","恩","静"]
def __getitem__(self, index):
return self.data[index]
def __len__(self):
return len(self.data)
#实例化数据集类
set = MyDataSet1()
loader = DataLoader(dataset = set,batch_size = 2)
print("len(loader):","len(loader)"
#从dataloader中抽取batch数据
for data in loader:
print(data)
(1) 调用len(loader)的时候,返回值是MyDataSet1类中的__len__(self)方法的放返回值。
(2) 每次从loader中取出data,就是Mydataset1类中的__getitem__(self,index)的返回值,然后根据batch_size设置的值,组成batch数据返回,变成data。
dataset类代码中,其中__getitem__和__len__是子类必须继承的