Pytorch导入数据主要依靠torch.utils.data.DataLoader和torch.utils.data.Dataset这两个类来完成。
Dataset获取数据及其标签以及数据数量。
Dataloader:为后面的网络提供不同的数据形式。
加载自己数据过程
1.先重写Dataset。要有三个函数。分别是_ init 、 getitem 、 _ len_ _。
先定义一个类,再重写函数
from torch.utils.data import Dataset
import os
class MyData(Dataset):#然后重写三个函数
def __init__(self,root):#root图片路径,根据路径得到数据列表
imgs=os.listdir(root)
self.imgs=[os.path.join(root,k) for k in imgs]
def __len__(self):
return len(self.imgs) #返回列表长度
def __getitem__(self, index):#根据index找到对应图片并打开
img_path = self.imgs[index]
pil_img = Image.open(img_path)
pil_img = np.asarray(pil_img)
data = torch.from_numpy(pil_img)
return data
if __name__ == '__main__':
trian_dataset=MyData('test')
print(dataSet[0])
2.使用DataLoader迭代数据主要实现以下功能:
- 批处理数据(Batching the data)
- 打乱数据(Shuffling the data)
- 使用多线程 multiprocessing 并行加载数据,默认单线程
train_loader = dataloader.DataLoader(
dataset=train_dataset,
batch_size=128, # batch_size可以理解每次加载一个包,每个包中含有128张图片
shuffle=False,
)