解决pytorch多GPU训练的模型加载问题

在pytorch中,使用多GPU训练网络需要用到 【nn.DataParallel】:

gpu_ids = [0, 1, 2, 3]
device = t.device("cuda:0" if t.cuda.is_available() else "cpu") # 只能单GPU运行
net = LeNet()
if len(gpu_ids) > 1:
  net = nn.DataParallel(net, device_ids=gpu_ids)
net = net.to(device)

由于多GPU训练使用了 nn.DataParallel(net, device_ids=gpu_ids) 对网络进行封装,因此在原始网络结构中添加了一层module。网络结构如下:

DataParallel(
 (module): LeNet(
  (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
 )
)

而不使用多GPU训练的网络结构如下:

LeNet(
 (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
 (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
 (fc1): Linear(in_features=400, out_features=120, bias=True)
 (fc2): Linear(in_features=120, out_features=84, bias=True)
 (fc3): Linear(in_features=84, out_features=10, bias=True)
)

重点多GPU训练好的模型,单GPU 如何正确加载

方法一:(训练的时候必须写好的不同保存模式)

if len(gpu_ids) > 1:
  t.save(net.module.state_dict(), "model.pth")
else:
  t.save(net.state_dict(), "model.pth")

或者写入字典

def save_model (model, cudan=4):
 savepath = str(dir_checkpoint) + '/best_model.pth'
  # 定义要保存的模型的字典
 state = {
      'epoch': nb + 1,
      'mIoU': newmIoU,
      'dev_loss': dev_loss,
      "lr:":lr,
      # 'model_state_dict':  model.module.state_dict(),  # 保存多GPU网络模型的字典
      # 'model_state_dict': model.state_dict(),  # 保存单GPU模型的字典
      'optimizer_state_dict': optimizer.state_dict(),
  }
  # 保存网络模型 https://blog.csdn.net/anshiquanshu/article/details/122157157
  if cudan > 1:  # 并行的保存
      state['model_state_dict'] = model.module.state_dict()  # 多GPU
  else:
      state['model_state_dict'] = model.state_dict() # 单GPU模型的字典

  torch.save(state, savepath) 

方法二:无论有几个GPU 都按并行的方式加载即可,一个也可以,不影响

model.load_state_dict({k.replace('module.', ''): v for k, v in checkpoint["model_state_dict"].items()})
    model = nn.DataParallel(model).cuda()

或者字典中的加载

model2 = net()
model2.load_state_dict({k.replace('module.', ''):v for k, v in torch.load('demo.pth').items()})
model2 = nn.DataParallel(model2).cuda()

参考链接:
[1]https://blog.csdn.net/anshiquanshu/article/details/122157157
[2] https://www.jb51.net/article/189297.htm

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在PyTorch加载训练模型时,如果不想使用多GPU,可以通过以下步骤进行操作。 首先,我们需要导入必要的库和模块: ```python import torch import torchvision.models as models ``` 接下来,我们可以选择要加载的预训练模型。这里以ResNet-50为例: ```python model = models.resnet50(pretrained=True) ``` 接下来,我们需要检查当前系统GPU数量。可以使用`torch.cuda.device_count()`来获取GPU的数量。 ```python gpu_count = torch.cuda.device_count() ``` 如果`gpu_count`的值大于1,表示有多个GPU可用。为了确保模型只在单个GPU上运行,我们需要使用`torch.nn.DataParallel`模块。但是,如果不想使用多GPU,则需要取消这个模块的使用。 如果只有一个GPU可用,我们可以简单地将模型转移到该GPU上: ```python if gpu_count == 1: model = model.cuda() ``` 如果有多个GPU可用,我们可以使用`torch.nn.DataParallel`模块来加载训练模型,并将模型转移到主GPU上: ```python if gpu_count > 1: model = torch.nn.DataParallel(model).cuda() ``` 最后,我们可以使用加载的预训练模型进行后续操作。 总之,为了不使用多GPU进行模型加载,我们需要通过检查GPU数量,并相应地转移到单个GPU或使用`torch.nn.DataParallel`模块转移到主GPU上。这样可以确保模型在单个GPU上运行而不会使用多GPU。 ### 回答2: 在PyTorch加载训练模型时,如果不希望使用多个GPU上的module,可以通过以下步骤实现: 首先,使用torch.load()函数加载训练模型的权重和参数,例如: ```python model_state_dict = torch.load('pretrained_model.pth') ``` 然后,在加载模型之前,可以通过修改model_state_dict来删除原模型包含的多GPU相关的module前缀。默认情况下,PyTorch在保存模型时,会自动添加"module."前缀来标识使用多GPU。例如,如果模型原本的键名为"module.conv1.weight",则可以通过以下代码提取模型参数的键名: ```python new_model_state_dict = {} for k, v in model_state_dict.items(): name = k[7:] # 去掉"module."前缀 new_model_state_dict[name] = v ``` 接下来,创建新的模型实例,并将修改后的参数加载到该实例: ```python model = YourModel() # 创建新的模型实例 model.load_state_dict(new_model_state_dict) # 加载修改后的模型参数 ``` 注意,这里的YourModel()应该是与预训练模型相同的模型类实例化得到的对象。 通过这样的处理,就可以将预训练模型加载到单个GPU上的模型,而无需考虑多GPU的module问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值