Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

使用pytorch DDP(DistributedDataParallel,分布式数据并行)可以进行多卡训练,涉及到模型保存与加载问题时,一般会涉及到以下两种需求:

  1. 将多卡训练的模型保存到磁盘。
  2. 从磁盘加载模型,在多卡上继续训练。

如何无bug且高效的解决以上需求?(假设训练设备为“单机4卡”)

对于需求1,由于DDP在多卡中维护了相同的模型参数(通过在4张GPU上确保模型初始化以及广播相同的梯度来保证4张卡中的模型参数是完全相同的),因此只需要在其中一张卡保存模型即可:

def save_checkpoint(local_rank, ddp_model, path):
    #只在GPU 0 上保存模型
    if local_rank== 0:
        state = {
            'model': ddp_model.module.state_dict(),
            'optimizer': optimizer.state_dict(),
        }
        torch.save(state, path)

对于需求2,一般会使用torch.load()方法从磁盘加载文件:

def load_checkpoint(path):
    checkpoint = torch.load(path)
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

但是此时往往会遇到多进程在GPU0上占用过多显存的问题:

使用nvidia-smi命令:

上图中,在所有使用GPU0的进程中,除了PID为62250的进程外,还存在其他三个进程,而这三个进程还分别使用GPU1\2\3。这三个额外进程在GPU0占用了725MB*3的显存空间,这可能会导致GPU0在训练时出现爆显存的问题。

在DDP中,会为每张卡单独创建一个进程:

上图的情况是正常的,每个进程只会使用与其对应的一张显卡。

该问题出现的原因是:torch.load()的不正确使用。

在pytorch对torch.load()方法的官方文档中,有以下说明:

If map_location is missing, torch.load will first load the module to CPU and then copy each parameter to where it was saved

意思是,如果map_location参数是空的,则torch.load方法会先把模型加载到CPU,然后把模型参数复制到保存它的地方(根据上文,保存模型的位置恰好是GPU 0)。

跑在GPU1上的进程在执行到torch.load方法后,会先加载模型到CPU,之后该进程顺理成章地调用GPU0,把一部分数据复制到GPU0,也就出现了前面图中的问题。

与其说是bug,倒不如说没仔细阅读文档。

两种解决方法方法。

一,将map_location指定为CPU:

def load_checkpoint(path):
    #加载到CPU
    checkpoint = torch.load(path,map_location='cpu')
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

二,将map_location指定为local_rank对应的GPU:

def load_checkpoint(path):
    #加载到CPU
    checkpoint = torch.load(path,map_location='cuda:{}'.format(local_rank))
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

  • 25
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: 在PyTorch加载预训练模型,如果不想使用GPU,可以通过以下步骤进行操作。 首先,我们需要导入必要的库和模块: ```python import torch import torchvision.models as models ``` 接下来,我们可以选择要加载的预训练模型。这里以ResNet-50为例: ```python model = models.resnet50(pretrained=True) ``` 接下来,我们需要检查当前系统中的GPU数量。可以使用`torch.cuda.device_count()`来获取GPU的数量。 ```python gpu_count = torch.cuda.device_count() ``` 如果`gpu_count`的值大于1,表示有多个GPU可用。为了确保模型只在单个GPU上运行,我们需要使用`torch.nn.DataParallel`模块。但是,如果不想使用GPU,则需要取消这个模块的使用。 如果只有一个GPU可用,我们可以简单地将模型转移到该GPU上: ```python if gpu_count == 1: model = model.cuda() ``` 如果有多个GPU可用,我们可以使用`torch.nn.DataParallel`模块来加载预训练模型,并将模型转移到主GPU上: ```python if gpu_count > 1: model = torch.nn.DataParallel(model).cuda() ``` 最后,我们可以使用加载的预训练模型进行后续操作。 总之,为了不使用GPU进行模型加载,我们需要通过检查GPU数量,并相应地转移到单个GPU使用`torch.nn.DataParallel`模块转移到主GPU上。这样可以确保模型在单个GPU上运行而不使用GPU。 ### 回答2: 在PyTorch中,加载预训练模型,如果不希望使用多个GPU上的module,可以通过以下步骤实现: 首先,使用torch.load()函数加载预训练模型的权重和参数,例如: ```python model_state_dict = torch.load('pretrained_model.pth') ``` 然后,在加载模型之前,可以通过修改model_state_dict来删除原模型中包含的多GPU相关的module前缀。默认情况下,PyTorch在保存模型自动添加"module."前缀来标识使用GPU。例如,如果模型原本的键名为"module.conv1.weight",则可以通过以下代码提取模型参数的键名: ```python new_model_state_dict = {} for k, v in model_state_dict.items(): name = k[7:] # 去掉"module."前缀 new_model_state_dict[name] = v ``` 接下来,创建新的模型实例,并将修改后的参数加载到该实例中: ```python model = YourModel() # 创建新的模型实例 model.load_state_dict(new_model_state_dict) # 加载修改后的模型参数 ``` 注意,这里的YourModel()应该是与预训练模型相同的模型类实例化得到的对象。 通过这样的处理,就可以将预训练模型加载到单个GPU上的模型中,而无需考虑多GPU的module问题

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值