pytorch自定义数据集和数据加载器

假设有一个保存为npy格式的numpy数据集,现在需要将其变为pytorch的数据集,并能够被数据加载器DataLoader所加载

首先自定义一个数据集类,继承torch.utils.data.Dataset类

在这个类中要实现__init__,__getitem__,__len__这三个方法,否则会报错

然后实例化这个类,得到train_data,最后将train_data放入DataLoader数据加载器,到此已经完成

注意,在下面这个代码中的x(也就是数据加载器加载出来的数据)的类型是tensor。也就是说,上面的实现中自动把numpy数据类型转化为了tensor类型

from torch.utils.data import Dataset, DataLoader


class MyDataset(Dataset):
    """
     path:数据集存放路径
    """
    def __init__(self, path):
        self.data = np.load(path)

    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return len(self.data)


if __name__ == '__main__':
    train_data = MyDataset(r"D:\dataset.npy")
    load1 = DataLoader(train_data, batch_size=128, shuffle=True, pin_memory=True, num_workers=3)
    for x in load1:
        print(x.size())

有时候我们需要同时加载数据和其对应的标签,则需要将数据集和标签定义在同一个数据加载器中,这时可以采用以下方法:

from torch.utils.data import Dataset, DataLoader

class MyDataset(Dataset):

    def __init__(self, data, label):
        self.data = data
        self.label = label

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.label)


if __name__ == '__main__':
    a = np.array([0,1,2,3,4,5])
    b = np.array([6,7,8,9,10,11])
    trainset = MyDataset(a, b)

    train_loader = torch.utils.data.DataLoader(trainset, batch_size=2, shuffle=True, pin_memory=True,
                                               num_workers=3)

    for x, y in train_loader:
        print(x, y)

重点在__getitem__方法的实现,需要同时返回数据和标签

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
PyTorch允许您创建自定义数据集以便于加载和处理您自己的数据。以下是一个简单的示例来创建自定义数据集: 首先,您需要导入必要的库: ```python import torch from torch.utils.data import Dataset ``` 然后,创建一个继承自`Dataset`类的自定义数据集类,并实现以下方法: - `__init__`:初始化数据集,例如加载数据或设置转换。 - `__len__`:返回数据集的大小。 - `__getitem__`:根据给定的索引返回一个样本。 下面是一个示例,假设您有一组图像数据和相应的标签: ```python class CustomDataset(Dataset): def __init__(self, data, labels): self.data = data self.labels = labels def __len__(self): return len(self.data) def __getitem__(self, index): sample = self.data[index] label = self.labels[index] # 在这里进行必要的数据转换 return sample, label ``` 在上面的示例中,`data`是图像数据的列表,`labels`是相应的标签的列表。然后,您可以在`__getitem__`方法中执行必要的数据转换,例如将图像转换为张量或应用任何其他预处理步骤。 要使用自定义数据集,您可以创建一个实例并将其传递给`DataLoader`类: ```python # 假设您有图像数据和标签 data = [...] # 图像数据列表 labels = [...] # 标签列表 # 创建自定义数据集实例 dataset = CustomDataset(data, labels) # 创建数据加载 dataloader = torch.utils.data.DataLoader(dataset, batch_size=32, shuffle=True) ``` 现在,您可以使用`dataloader`来迭代加载批量的数据,并在训练模型时使用它们。 这只是一个简单的示例,您可以根据您的需求进行更多的自定义和扩展。希望这可以帮助到您!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值