参考:https://blog.csdn.net/weixin_40087578/article/details/87186613
使用多gpu运算需要添加的代码
1、模型复制到gpu,使用DataParallel
if arg.cuda:
model=model.cuda() #这里将模型复制到gpu ,默认是cuda('0'),即转到第一个GPU 2
if len(device_id)>1:
model=torch.nn.DaraParallel(model);#前提是model已经.cuda() 了
cudnn.benchmark = True
一般来讲,应该遵循以下准则:
- 如果网络的输入数据维度或类型上变化不大,设置 torch.backends.cudnn.benchmark = true 可以增加运行效率;
- 如果网络的输入数据在每次 iteration 都变化的话,会导致 cnDNN 每次都会去寻找一遍最优配置,这样反而会降低运行效率。
2、数据复制到gpu
img, bbox, label = img.cuda().float(), bbox_.cuda(), label_.cuda()
#或者
if args.cuda:
data,label= data.cuda(),label.cuda()