硬核带撸并行训练方法（单机多卡）「AI工程论」

最新推荐文章于 2024-09-04 10:48:48 发布

九三智能控v

最新推荐文章于 2024-09-04 10:48:48 发布

阅读量561

点赞数

本文链接：https://blog.csdn.net/u9Oo9xkM169LeLDR84/article/details/106934891

版权

本文详细介绍了PyTorch中使用nn.DataParallel, torch.distributed, Apex和Horovod进行并行训练的方法，包括设置、优缺点及在ImageNet上的性能测试。Apex在混合精度训练和NCCL通信上提供优化，而Horovod提供类似torch.distributed的功能，易于使用。" 132387779,19671094,自定义Android锁屏界面：禁止状态栏下拉,"['Android开发', '自定义锁屏', '系统界面']

摘要由CSDN通过智能技术生成

关注：决策智能与机器学习，深耕AI脱水干货

作者 | 纵横

来源 | 知乎

网址 | https://zhuanlan.zhihu.com/p/98535650

授权转载

Take-Away

笔者使用 PyTorch 编写了不同加速库在 ImageNet 上的使用示例（单机多卡）。笔者记录了使用 4 块 Tesla V100-PICE 在 ImageNet 进行了运行时间的测试，测试结果发现 Apex 的加速效果最好，但与 Horovod/Distributed 差别不大，平时可以直接使用内置的 Distribu从 V100-PICE/V100/K80 中各拿出 4 张卡，试验一下哪种分布式学习库速度最快！ted。Dataparallel 较慢，不推荐使用。（后续会补上 V100/K80 上的测试结果，穿插了一些试验所以中断了）

图 1：在 ImageNet 2012 上训练和测试一个 epoch 所需的时间（V100-PICE）

简要记录一下不同库的分布式训练方式，当作代码的 README（我真是个小机灵鬼）～

简单方便的 nn.DataParallel

DataParallel 可以帮助我们（使用单进程控）将模型和数据加载到多个 GPU 中，控制数据在 GPU 之间的流动，协同不同 GPU 上的模型进行并行训练（细粒度的方法有 scatter，gather 等等）。

DataParallel 使用起来非常方便，我们只需要用 DataParallel 包装模型，再设置一些参数即可。需要定义的参数包括：参与训练的 GPU 有哪些，device_ids=gpus；用于汇总梯度的 GPU 是哪个，output_device=gpus[0] 。DataParallel 会自动帮我们将数据切分 load 到相应 GPU，将模型复制到相应 GPU，进行正向传播计算梯度并汇总：

model = nn.DataParallel(model.cuda(), device_ids=gpus, output_device=gpus[0])

值得注意的是，模型和数据都需要先 load 进 GPU 中，DataParallel 的 module 才能对其进行处理，否则会报错：

# 这里要 model.cuda()
model = nn.DataParallel(model.cuda(), device_ids=gpus, output_device=gpus[0])

for epoch in range(100):
   for batch_idx, (data, target) in enumerate(train_loader):
      # 这里要 images/target.cuda()
      images = images.cuda(non_blocking=True)
      target = target.cuda(non_blocking=True)
      ...
      output = model(images)
      loss = criterion(output, target)
      ...
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

汇总一下，DataParallel 并行训练部分主要与如下代码段有关：

# main.py
import torch
import torch.distributed as dist

gpus = [0, 1, 2, 3]
torch.cuda.set_device('cuda:{}'.format(gpus[0]))

train_dataset = ...

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=...)

model = ...
model = nn.DataParallel(model.to(device), device_ids=gpus, output_device=gpus[0])

optimizer = optim.SGD(model.parameters())

for epoch in range(100):
   for batch_idx, (data, target) in enumerate(train_loader):
      images = images.cuda(non_blocking=True)
      target = target.cuda(non_blocking=True)
      ...
      output = model(images)
      loss = criterion(output, target)
      ...
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

在使用时，使用 python 执行即可：

python main.py

在 ImageNet 上的完整训练代码，请点击Github。

使用 torch.distributed 加速并行训练

在 pytorch 1.0 之后，官方终于对分布式的常用方法进行了封装，支持 all-reduce，broadcast，send 和 receive 等等。通过 MPI 实现 CPU 通信，通过 NCCL 实现 GPU 通信。官方也曾经提到用 DistributedDataParallel 解决 DataParallel 速度慢，GPU 负载不均衡的问题，目前已经很成熟了～

与 DataParallel 的单进程控制多 GPU 不同，在 distributed 的帮助下，我们只需要编写一份代码，torch 就会自动将其分配给