torch dataloader 数据并行_Pytorch数据加载的分析

Pytorch数据加载的效率一直让人头痛,此前我介绍过两个方法,实际使用后数据加载的速度还是不够快,我陆续做了一些尝试,这里做个简单的总结和分析。

1、定位问题

在优化数据加载前,应该先确定是否需要优化数据加载。数据读取并不需要更快,够快就好。一般的,显存占用率很高,利用率却很低的时候,通常会怀疑是数据加载太慢导致,但不是唯一原因,比如模型内大量的循环也会导致GPU利用率低。可以尝试固定数据看看是否可以提高GPU利用率。

确定数据加载需优化后,需要判断是数据加载的哪一部分慢。整个数据处理的流程如下:

  • 读取图片数据(IO,可能存在IO瓶颈)
  • 解码数据(一般是numpy格式,可能存在计算性能瓶颈)
  • 数据增强(可能存在计算性能瓶颈)
  • 类型变换(CPU->GPU,,可能存在数据拷贝瓶颈)

为节省阅读时间,先给结论,数据加载慢主要是由于计算性能的瓶颈,而不是IO瓶颈和数据拷贝瓶颈(测试数据为1920x1080的大图,小图片可能结论不同)。为优化加载速度应该从两个方向下手:

  • 更快的图片解码
  • 更快的数据增强
  • 更强性能的设备,如使用GPU进行数据解码和增强(DALI库)

下面是具体的实验分析,测试环境和数据如下:

  • CPU: Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz (正常负载,利用率小于30%)
  • GPU: V100 (正常负载,利用率小于30%)
  • 数据集数据840张,尺寸为1920x1080
  • batch size = 64
  • 无特别说明下num_workers=2
  • 迭代10个epoch(13x10个迭代次数)

2. Baseline

不进行任何额外优化下的速度如下:

ef77d6a1625a6a404683c0dce5c98b44.png

其中:

  • 无任何额外操作的输出图片为原始大小(1920x1080)
  • 归一化的具体操作为: x = x.permute(0, 3, 1, 2).float().div(255)
  • 转GPU的具体操作为: x = x.cuda()
  • resize为opencv的resize,插值方式为 cv2.INTER_LINEAR
  • 数据增强的操作使用Numpy和Opencv,包括:
  • random resize
  • random crop
  • random filp
  • random HSV

可以明显的看出耗时主要发生在数据读取和数据增强部分,而CPU到GPU的数据转换等耗时较少。

需要注意的一个地方是【crop(8960x540)、转GPU、归一化】和【转GPU、归一化】的耗时差不多,crop的耗时很小,且crop后图片较小,使得转GPU的操作也变快了,最终二者的耗时差不多。

分析将分为以下几个部分: DataLoader 图片读取 * 数据增强

此外由于【CPU转GPU、数据的归一化转秩】和【DataLoader】比较相关,会一起分析。

3. DataLoader

(1) num_workers

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch支持使用多张显卡进行并行训练,可以使用`torch.nn.DataParallel`或`torch.nn.parallel.DistributedDataParallel`来实现。以下是使用`torch.nn.DataParallel`的示例代码: ```python import torch import torch.nn as nn from torch.utils.data import DataLoader # 定义模型 class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.fc1 = nn.Linear(10, 5) self.fc2 = nn.Linear(5, 1) def forward(self, x): x = self.fc1(x) x = torch.relu(x) x = self.fc2(x) return x # 定义数据集 class MyDataset(torch.utils.data.Dataset): def __init__(self): self.data = torch.randn(100, 10) self.targets = torch.randn(100, 1) def __getitem__(self, index): return self.data[index], self.targets[index] def __len__(self): return len(self.data) # 定义训练函数 def train(model, dataloader, optimizer, criterion): model.train() for i, (inputs, targets) in enumerate(dataloader): optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step() # 创建模型、数据集、数据加载器、优化器、损失函数 model = MyModel() dataset = MyDataset() dataloader = DataLoader(dataset, batch_size=8, shuffle=True) optimizer = torch.optim.SGD(model.parameters(), lr=0.01) criterion = nn.MSELoss() # 使用DataParallel进行多GPU并行训练 model = nn.DataParallel(model) device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model.to(device) for epoch in range(10): train(model, dataloader, optimizer, criterion) ``` 在上面的代码中,我们首先定义了一个模型`MyModel`和一个数据集`MyDataset`。然后,我们使用`DataLoader`将数据加载到内存中。接下来,我们创建了一个优化器和一个损失函数。最后,我们将模型移到GPU上,并使用`DataParallel`对其进行并行处理。在训练循环中,我们调用`train`函数来训练模型。`train`函数的参数分别是模型、数据加载器、优化器和损失函数。由于我们在模型上调用了`DataParallel`,因此在训练循环中,我们不需要手动处理多个GPU的并行计算。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值