查看torch依赖的cuda版本_torch多GPU情况下模型建立遇到的问题

问题:最近在实现bert pytorch版本的过程中遇到一个不能使用多GPU的问题,然而github原始版本是可以使用的,修改过程中的一些改动导致使用多GPU时会报如下的错误: arguments are located on different GPUs

40fba1c75eea27c370ba9a75b9f2cdb0.png

定位完问题的位置后一开始以为是cuda设置的问题,后来发现问题出在tranformer模块这里。旧代码在transformer的12个layer建立时采用了简单的list来存储然后用add_module的方法建立模型。但是这样的写法在多GPU的情况下好像是有问题的。以下是修改前后的代码对比:

修改前通过list和add_module方法建立

fd88937ada4acdf6d0b3fdd949341319.png

修改为nn.ModuleList方法建立

c380af084c67b29a15f54b66615e3f28.png

出错原因详解:
ModuleList和普通list不一样,它和torch的其他机制结合紧密,继承了nn.Module的网络模型class可以使用nn.ModuleList并识别其中的parameters。而在我们出错的代码中可以看见我们的子module是用普通的list存储的,这种写法的子module不能被主module所识别,所以其参数未加入到主module的参数中去,自然会报第一张图中的arguments are located on different GPUs。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
torch.cuda.set_device() 函数可以用来设置当前使用的 GPU 设备。如果系统中有多个 GPU 设备,可以通过该函数来指定使用哪一个 GPU。 以下是一个示例,说明如何使用 torch.cuda.set_device() 函数来指定多个 GPU 设备: ``` import torch # 指定要使用的 GPU 设备的编号 device_ids = [0, 1] # 创建一个模型,并将模型移动到指定的 GPU 设备上 model = MyModel().cuda(device_ids[0]) model = torch.nn.DataParallel(model, device_ids=device_ids) # 创建一个张量,并将张量移动到指定的 GPU 设备上 x = torch.randn(10, 10).cuda(device_ids[0]) # 使用 torch.cuda.set_device() 函数来切换当前使用的 GPU 设备 torch.cuda.set_device(device_ids[1]) # 对张量进行操作 y = model(x) # 使用 torch.cuda.set_device() 函数切换回原来的 GPU 设备 torch.cuda.set_device(device_ids[0]) ``` 在上面的示例中,首先创建了一个包含两个 GPU 设备编号的列表 `device_ids`。接着,创建了一个模型 `MyModel()`,并将该模型移动到列表中的第一个 GPU 设备上。然后,使用 `torch.nn.DataParallel` 将模型复制到其他 GPU 设备上。接着,创建了一个张量 `x`,并将该张量移动到列表中的第一个 GPU 设备上。 在对张量 `x` 进行操作之前,使用 `torch.cuda.set_device()` 函数将当前使用的 GPU 设备切换到列表中的第二个 GPU 设备上。在操作完成后,再将当前使用的 GPU 设备切换回列表中的第一个 GPU 设备上。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值