PyTorch单机多卡训练（无废话）

最新推荐文章于 2025-03-28 12:21:25 发布

原创

最新推荐文章于 2025-03-28 12:21:25 发布 · 2.2k 阅读

CC 4.0 BY-SA版权

文章标签：

目前大家基本都在使用DistributedDataParallel（简称DDP）用来训练，该方法主要用于分布式训练，但也可以用在单机多卡。

torch.distributed.init_process_group(backend='nccl')

归根到底是创建一个变量，来接收torch.distributed.launch 注入。
目前代码中常见的两种方式：

local_rank = int(os.environ["LOCAL_RANK"])   # 这种是从自定义config文件中获取LOCAL_RANK

另外一种是parser：

parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", type=int, default=-1)
args = parser.parse_args()

torch.cuda.set_device(args.local_rank)
torch.manual_seed(hps.train.seed)   # 非必要，尽可能固定种子

# 分布式数据
train_sampler = DistributedSampler(train_dataset)
train_loader = torch.utils.data

200万优质内容无限畅学