torch distributed.init out of memory

torch distributed.init out of memory

设置环境gpu:

os.environ["CUDA_VISIBLE_DEVICES"] = "1, 2, 3"

local_rank=0

torch.cuda.set_device(local_rank)

cuda(0)默认是第0块显卡,

但是设置CUDA_VISIBLE_DEVICES后:

cuda(0)就是CUDA_VISIBLE_DEVICES里面的第一个gpu。

distributed.init 报错out of memory
import argparse
import logging
import os
import time

import torch
import torch.distributed as dist
import torch.nn.functional as F
import torch.utils.data.distributed
def main(args):
    try:
        world_size = int(os.environ['WORLD_SIZE'])
        rank = int(os.environ['RANK'])
        dist_url = "tcp://{}:{}".format(os.environ["MASTER_ADDR"], os.environ["MASTER_PORT"])
    except KeyError:
        world_size = 1
        rank = 0
        dist_url = "tcp://127.0.0.1
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
可以使用`torch.distributed.launch`来启动单机单卡的训练。 使用方法如下: 1. 在命令行中运行以下命令: ``` python -m torch.distributed.launch --nproc_per_node=1 your_script.py ``` 其中,`--nproc_per_node`指定每个节点使用的GPU数,这里是1。 2. 在代码中使用`torch.distributed.init_process_group`初始化进程组。 ``` import torch import torch.distributed as dist dist.init_process_group(backend='nccl', init_method='env://') ``` 其中,`backend`指定使用的通信后端,这里是nccl,`init_method`指定初始化方法,这里使用环境变量。 3. 将模型和数据分布到各个GPU上,并使用`nn.parallel.DistributedDataParallel`包装模型。 ``` import torch.nn as nn import torch.optim as optim import torchvision.models as models import torchvision.transforms as transforms import torch.utils.data.distributed model = models.resnet50() model.cuda() model = nn.parallel.DistributedDataParallel(model) criterion = nn.CrossEntropyLoss().cuda() optimizer = optim.SGD(model.parameters(), lr=0.1) train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True, transform=transforms.ToTensor(), download=True) train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=128, shuffle=False, num_workers=2, pin_memory=True, sampler=train_sampler) for epoch in range(10): train_sampler.set_epoch(epoch) for i, (input, target) in enumerate(train_loader): input = input.cuda() target = target.cuda() output = model(input) loss = criterion(output, target) optimizer.zero_grad() loss.backward() optimizer.step() ``` 以上代码使用了CIFAR10数据集和ResNet50模型作为示例。需要注意的是,每个进程在训练过程中只能访问到分配给它的数据,因此需要使用`torch.utils.data.distributed.DistributedSampler`分发数据,同时在每个epoch之前调用`train_sampler.set_epoch(epoch)`来更新数据的分发策略。还需要使用`input.cuda()`和`target.cuda()`将数据移到GPU上。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI算法网奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值