pytorch多gpu的问题（RuntimeError: Expected tensor for argument #1 ‘input‘ to have the same device as ...）

最新推荐文章于 2024-01-08 19:40:40 发布

猛男炸鸡翅

最新推荐文章于 2024-01-08 19:40:40 发布

阅读量1.1w

点赞数 10

分类专栏：其他文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_43508499/article/details/104622495

版权

其他专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了PyTorch框架下使用多GPU进行模型训练的正确姿势，包括常见错误及解决办法，通过实例验证，帮助读者理解并避免RuntimeError: Expected tensor for argument #1 'input' to have the same device as tensor argument #2 'weight'.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. pytorch正常使用多GPU的方式

# 导入需要的库
import torch
import torch.nn as nn

# 设置torch.device
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

# 假定这里直接导入了model
model = torch.load('xxx.pth')

# 利用nn.DataParallel（device_ids设置多gpu的id）
model = nn.DataParallel(model, device_ids = [0, 1])
model.to(device)
model.eval()  # 假设这里要作推理用

# 推理, 假设输入是img
result = model(img.to(device))

注：这里设置device从0号gpu开始，后面的device_ids里也必须要有0，其他id自己设置。

2. 报错：RuntimeError: Expected tensor for argument #1 ‘input’ to have the same device as …

2.1 问题描述

input和weight不再同一个device上，就是输入跟模型的参数不再同一个gpu上，所以报错。
在这里插入图片描述

2.2 问题分析

跟模型的定义形式有关。
在这里插入图片描述（1）上图中子模块的定义只是单纯地copy了self.g的操作（不是tensor，即没有继承nn.Module的方法），所以调用多gpu时，模型的参数不会分配到其他的gpu，因此报错。

（2）贴一张“参考资料1”中比较准确的说法，是对上一张图报错的说明：
在这里插入图片描述

2.3 实验验证

定义一个简单的mnist模型（可以正常调用多gpu），如下图所示：
在这里插入图片描述

再模拟一个调用多gpu会报错的模型，把fc1变成fc3，如下图所示：
在这里插入图片描述果然跟预想的一样报错了，不过报错信息是（-_-|||）：
RuntimeError: arguments are located on different GPUs at /pytorch/aten/src/THC/generic/THCTensorMathBlas.cu:255
（好吧，意思差不多，参数在不同的gpu上。。。）