pytorch单机多卡训练

使用DistributedDataParallel进行单机多GPU训练,官方教程很详细了。
最后需要通过CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=2 train.py调用。

import torch
import torch.distributed as dist

torch.distributed.init_process_group(backend="nccl")
local_rank = torch.distributed.get_rank()
torch.cuda.set_device(local_rank)
device = torch.device("cuda", local_rank)

def train():
    net = Net.Network().cuda()
    #多卡训练保存的模型会有额外的"module."字段,读取模型时去除
    net.load_state_dict({k.replace("module.",""):v for k, v in state_dict.items()})
    #batch_size指定每张卡的训练样本个数
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=2, shuffle=False, num_workers=2, pin_memory=True,
                                              sampler=DistributedSampler(trainset))
    
    net.to(device)
    net = torch.nn.parallel.DistributedDataParallel(net, device_ids=[local_rank], output_device=local_rank)
    net.train()
    #...

    if local_rank == 0:
        torch.save(if epoch % 5 == 0:
         if local_rank == 0:
             test()
         dist.barrier() #进程等待同步

参考

https://pytorch.org/tutorials/intermediate/ddp_tutorial.html
https://pytorch.org/docs/stable/nn.html#distributeddataparallel
https://fyubang.com/2019/07/23/distributed-training3/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值