【pytorch】torch.utils.data.Dataset 认识
前言
torch.utils.data.Dataset 类和 torch.utils.data.DataLoader 类组合得到数据迭代器,是pytorch中一种十分方便的数据读取机制。在每次训练时,利用这个迭代器输出每一个batch数据(batch:从全部样本中取得的一批数据),并能在输出时对数据进行相应的预处理或数据增广操作。
torch.utils.data.Dataset 类和 torch.utils.data.DataLoader 类的使用
- pytorch提供了一个数据读取的方法,其由两个类构成:torch.utils.data.Dataset和DataLoader。
- 我们要自定义自己数据读取的方法,就需要继承torch.utils.data.Dataset,并将其封装到DataLoader中。
- torch.utils.data.Dataset表示该数据集,继承该类可以重载其中的方法,实现多种数据读取及数据预处理方式。
- torch.utils.data.DataLoader 封装了Data对象,实现单(多)进程迭代器输出数据集。
torch.utils.data.Dataset 类
- 要自定义自己的Dataset类,至少要重载两个方法,len, getitem
- __len__返回的是数据集的大小
- __getitem__实现索引数据集中的某一个数据
- 除了这两个基本功能,还可以在__getitem__时对数据进行预处理,或者是直接在硬盘中读取数据,对于超大的数据集还可以使用lmdb来读取
torch.utils.data.Dataloader 类
- Dataloader将Dataset或其子类封装成一个迭代器
- 这个迭代器可以迭代输出Dataset的内容
- 同时可以实现多进程、shuffle、不同采样策略,数据校对等等处理过程