[Pytorch] DataLoader

加载数据、划分数据集(train-valid-test)、从数据集中创建dataloader。

ML2021Spring-hw1数据为例,代码如下:

代码

import csv
import numpy as np

# 数据处理
import torch
from torch.utils.data import Dataset, DataLoader


class Mydata(Dataset):
    def __init__(self):
        with open('Datasets/covid.train.csv', 'r') as f:
            data = list(csv.reader(f))
            data = np.array(data[1:])[:, 1:].astype(float)  # 去掉第一行和第一列, 并转为float形式 [2700,94]

        target = data[:, -1]  # 最后一列

        self.data = torch.FloatTensor(data)
        self.target = torch.FloatTensor(target)

    def __getitem__(self, item):
        # 一次返回一个sample
        return self.data[item]

    def __len__(self):
        return len(self.data)


dataset = Mydata()  # MyData类的一个对象(数据类型是MyData)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)  # DataLoader类的一个对象(数据类型是DataLoader)

for i, data in enumerate(dataloader):
    data = list(map(lambda x: torch.LongTensor(x.long()), data))
    print(data)

1. 实例化自定义类的对象

dataset,是MyData类的一个对象(数据类型是MyData)

dataset = Mydata()

上述代码中,首先定义一个自己的数据处理的类,例如MyData类,注意该类具有一定的固定格式,如下:

import torch
from torch.utils.data import Dataset, DataLoader

class Mydata(Dataset):  # 固定,写Dataset
    def __init__(self, attr1, attr2):  # 如果有数据处理的输入参数,写在这里
    	pass

    def __getitem__(self):
    	pass

    def __len__(self):
    	pass

定义好自己的数据处理的类之后,实例化一个该类的对象:Mydata(attr1, attr2)中,

  1. __init__写数据处理的输入参数,如果没有,则dataset = Mydata() 即可。
  2. __getitem__写后续直接对dataloader进行数据操作得到的结果,例如:
def __getitem__(self, item):
    # 一次返回两个sample
    return self.data[item], self.target[item]

则对dataloader操作时有两个值:

for x,y in dataloader:
	print(x)
	print(y)

例如:

def __getitem__(self, item):
    # 一次返回一个sample
    return self.data[item]

则对dataloader操作时有一个值:

for x in dataloader:
	print(x)
  1. __len__得到数据的长度。
def __len__(self):
        return len(self.data)

2. 实例化DataLoader的对象

dataloader,是DataLoader类的一个对象(数据类型是DataLoader)

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

3. 对dataloader进行迭代操作

后续可以对dataloader进行循环迭代,每次循环得到的数据大小是定义的batch_size的大小。
例如:

for i, data in enumerate(dataloader):
    data = list(map(lambda x: torch.LongTensor(x.long()), data))
    print(data)

	# 后续再进一步操作
    input, label = data
    input, label = input.to(device), label.to(device)
    output = model(input)
    ……

其中,i从0开始累加,data的第0个维度为batch_size大小(为2)

len(data)  # =2
len(dataloader)  # 由数据集中的数据量决定

也可以不使用enumerate

for data in dataloader:
    data = list(map(lambda x: torch.LongTensor(x.long()), data))
    print(data)

区别在于少了i进行显示判断,data不变。

补充:可以直接把数据读入,并在自定义的MyData()类中可以进行train-valid的数据划分,也可以提前划分好数据,在自定义的MyData()类中直接转为MyData()类的实例dataset即可,相当于进行一个数据类型的转换,方便后续创建dataloader

后续在计算准确率acc损失值loss的时候,都是在epoch中进行累加,区别在于:

  • acc的是对所有item值进行比较、累加,因此累加值应该除以dataset的长度;
  • loss是计算每个batch的batch_loss的累加,因此累加值应该除以dataloader的长度。

参考:

  1. Pytorch中DataLoader的使用:https://blog.csdn.net/kahuifu/article/details/108654421
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PyTorch DataLoader是一个用于批量加载数据的工具,它可以帮助用户在训练模型时高效地加载和处理大规模数据集。DataLoader可以根据用户定义的批量大小、采样方法、并行加载等参数来自动将数据集分成小批量,并且可以在GPU上并行加载数据以提高训练效率。 使用DataLoader需要先定义一个数据集对象,然后将其传递给DataLoader。常用的数据集对象包括PyTorch自带的Dataset类和用户自定义的数据集类。在DataLoader中可以指定批量大小、是否打乱数据、并行加载等参数。 下面是一个示例代码: ```python import torch from torch.utils.data import Dataset, DataLoader class MyDataset(Dataset): def __init__(self): self.data = torch.randn(100, 10) self.label = torch.randint(0, 2, size=(100,)) def __getitem__(self, index): return self.data[index], self.label[index] def __len__(self): return len(self.data) dataset = MyDataset() dataloader = DataLoader(dataset, batch_size=10, shuffle=True, num_workers=2) for data, label in dataloader: print(data.shape, label.shape) ``` 在上面的示例中,我们定义了一个自己的数据集类MyDataset,并将其传递给DataLoader。然后指定了批量大小为10,打乱数据,使用2个进程来并行加载数据。在循环中,每次从DataLoader中取出一个批量的数据和标签,并输出它们的形状。 ### 回答2: PyTorchDataLoader是一个用于加载数据的实用工具。它可以帮助我们高效地加载和预处理数据,以供深度学习模型使用。 DataLoader有几个重要参数。首先是dataset,它定义了我们要加载的原始数据集。PyTorch提供了几种内置的数据集类型,也可以自定义数据集。数据集可以是图片、文本、音频等。 另一个重要参数是batch_size,它定义了每个批次中加载的数据样本数量。这是非常重要的,因为深度学习模型通常需要在一个批次上进行并行计算。较大的批次可以提高模型的训练速度,但可能需要更多的内存。 DataLoader还支持多线程数据加载。我们可以使用num_workers参数来指定并行加载数据的线程数。这可以加快数据加载的速度,特别是当数据集很大时。 此外,DataLoader还支持数据的随机打乱。我们可以将shuffle参数设置为True,在每个轮次开始时随机重新排序数据。这对于训练深度学习模型非常重要,因为通过在不同轮次中提供不同样本的顺序,可以增加模型的泛化能力。 在使用DataLoader加载数据后,我们可以通过迭代器的方式逐批次地获取数据样本。每个样本都是一个数据批次,包含了输入数据和对应的标签。 总的来说,PyTorchDataLoader提供了一个简单而强大的工具,用于加载和预处理数据以供深度学习模型使用。它的灵活性和可定制性使得我们可以根据实际需求对数据进行处理,并且能够高效地并行加载数据,提高了训练的速度。 ### 回答3: PyTorchDataLoader是一个用于数据加载和预处理的实用程序类。它可以帮助我们更有效地加载和处理数据集,并将其用于训练和评估深度学习模型。 DataLoader的主要功能包括以下几个方面: 1. 数据加载:DataLoader可以从不同的数据源中加载数据,例如文件系统、内存、数据库等。它接受一个数据集对象作为输入,该数据集对象包含实际的数据和对应的标签。DataLoader可以根据需要将数据集分成小批量加载到内存中,以减少内存占用和加速训练过程。 2. 数据预处理:DataLoader可以在加载数据之前对数据进行各种预处理操作,包括数据增强、标准化、裁剪和缩放等。这些预处理操作可以提高模型的泛化能力和训练效果。 3. 数据迭代:DataLoader将数据集划分为若干个小批量,并提供一个可迭代的对象,使得我们可以使用for循环逐个访问这些小批量。这种迭代方式使得我们能够更方便地按批次处理数据,而无需手动编写批处理循环。 4. 数据并行加载:DataLoader支持在多个CPU核心上并行加载数据,以提高数据加载的效率。它使用多线程和预读取的机制,在一个线程中预先加载数据,而另一个线程处理模型的训练或推理过程。 总之,PyTorchDataLoader是一个方便且高效的工具,帮助我们更好地管理和处理数据集。它可以加速深度学习模型的训练过程,并提供了一种简单而灵活的数据加载和迭代方式。使用DataLoader可以让我们更专注于模型的设计和调优,而无需过多关注数据的处理和加载细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值