pytorch分布式训练代码编写

最新推荐文章于 2024-03-26 05:47:14 发布

符尔摩斯

最新推荐文章于 2024-03-26 05:47:14 发布

阅读量551

点赞数

文章标签： pytorch 深度学习机器学习

本文链接：https://blog.csdn.net/kkx2218813/article/details/124802523

版权

model.cuda()

data = data.cuda()

torch.cuda.is_avaliable()

torch.save

torch.load(file.pt,map_location=torch.device(cuda))

torch.cuda.device_count()

或者使用命令行CUDA_VISIBLE_DEVICES=" "来限制GPU的使用

torch.distributed.init_process_group(backend='nccl', world_size=n_gpus, rank=args.local_rank, init_method='...')

'nccl’是GPU之间的通信方式，world_size指的是当前机器上用几张GPU，rank用来指定当前进程在哪个GPU上

torch.cuda.set_device(args.local_rank)

该语句相当于作用CUDA_VISIBLE_DEVICES环境变量。

准备工作完成后，用API包裹模型：

model = torch.nn.parallel.DistributedDataParallel(
			model.cuda(args.local_rank), 
			device_ids=[args.local_rank]
    )

指定sampler：

train_sampler = DistributedSampler(train_dataset)

train_dataloader = DataLoader(...,sampler=train_sampler,...)

data = data.cuda(args.local_rank)

执行命令：

python -m torch.distributed.launch --nproc_per_node=n_gpus train.py

模型保存
torch.save在local_rank=0的位置进行保存，注意调用model.module.state_dict()
torch.load注意map_location

关注