参考:https://blog.csdn.net/qq_30680871/article/details/90761272
报错RuntimeError: module must have its parameters and buffers on device cuda:2时主要是指定的GPU没有包含主卡的ID,如:
device = torch.device("cuda" if use_cuda else "cpu")
model = nn.DataParallel(model, device_ids=[1,2])
在定义device时“cuda”’要指定主卡,如果不指定默认主卡ID是0,然后指定运行的GPU ID是1,2然后就会报错,修改如下:
device = torch.device("cuda:1" if use_cuda else "cpu") # cuda和:1之间不能有空格
model = nn.DataParallel(model, device_ids=[1,2])
一下是pytorch一机多卡和多机多卡的API使用方法:
model = torch.nn.DataParallel(model, device_ids = [0,1,2,3])
该方法主要用于一机多卡。
model = torch.nn.parallel.DistributedDataParallel(model,device_ids=[arg.local_rank],output_device=arg.local_rank)
该方法主要用于分布式计算,多机多卡。
上边定义好GPU ID之后在训练的时候要用to(device)把数据转移到GPU上运行。