pytorch 多gpu训练

pytorch 多gpu训练

用nn.DataParallel重新包装一下

数据并行有三种情况

前向过程
device_ids=[0, 1, 2]
model = model.cuda(device_ids[0])
model = nn.DataParallel(model, device_ids=device_ids)

只要将model重新包装一下就可以。

后向过程
optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.001)
optimizer = nn.DataParallel(optimizer, device_ids=device_ids)
#因为它在DataParallel里面,所以要先变成普通的nn.SGD对象,然后才能调用该类的梯度更新方法。
optimizer.module.step() 

在网上看到别人这样写了,做了一下测试。但是显存没有变化,不知道它的影响是怎样的。
更新学习率的时候也需要注意一下:

for param_lr in optimizer.module.param_groups: #同样是要加module
    param_lr['lr'] /= 2
criterion(loss 函数)
def init_criterion():
    criterion = loss.CrossEntropyLoss2d()
    criterion = torch.nn.DataParallel(
            criterion, range(gpu_nums)).cuda()  # range(self.settings.n_gpu)
    return criterion
    
# criterion = init_criterion()
criterion = loss.CrossEntropyLoss2d()

这个并行的效果对显存是有影响的,但是效果不明显。我没有做太多实验。
训练的时候会出现问题:

loss = criterion(out, labels_tensor)
loss /= N
optimizer.zero_grad()
# loss.backward()
loss.sum().backward()

数据并行返回的结果的维度和之前维度是不一样的所以反向传播的时候需要做一下修改

转载于:https://www.cnblogs.com/o-v-o/p/9975357.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值