Pytorch的张量并行化运算

0 前言:

在很多时候,数据集很大,单卡单节点不能满足我们的工程工作。这个时候我们需要考虑多卡多机器上运行模型的张量并行化运算。

1 模型并行Model Parallel

将模型的计算图放入不同的计算节点,然后不同的节点并行计算图的不同的部分。

优点:

较容易容纳大模型,把很大的模型,分散置于不同节点了。

缺点:

并行计算较复杂,因为需要考虑如何有效控制数据在不同的节点的计算顺序,有条不紊的高速计算保证计算资源的利用率。

2 数据并行Data Parallel

每个节点有一个计算图,在不同的节点输入不同迷你批次的数据来对节点进行前向后反向计算,最后归约反向计算的梯度,并对模型进行优化和权重更新。

2.1 优点:

并行化算法较简单,只要考虑各个节点的张量再进行归约就好了

2.2 缺点:

大模型不适用,他对模型的显存上限还是各自节点上限。

Pytorch框架主要支持的却也是数据并行化。主要有DP和DDP俩种实现方式

2.3 DP:

DataParallel,这个是最简单的并行方式,部需要任何前置工作,代码会自动对一个迷你批次进行分割,讲其均匀分布到多个GPU上进行计算,最后讲结果归约到某一个GPU上。

torch.nn.DataParallel(module,device_ids=None,output_device=None,dim=0)

虽然这个用起来很简单,但是不太建议使用。

torch.nn.DataParallel能够很快对模型进行并行化,充分利用多GPU的优势,但他是基于Python线程的 ,通过不同的线程在部通的GPU上 异步运行模型来得到最终的结果。由于Python 自带全局解释器(GIL),任何时候,python解释器只能运行一个线程,对于多GPU来说就是资源浪费了。所以推荐下面这种方法

2.4 DDP:

分布式数据并行化,DISTRIBUTED DATA PARALLEL

关于分布式框架的后端主要有Gloo,MPI,NCCL

Pytorch 里,如果是GPU分布式优先推荐,NCCL,CPU分布式优先推荐Gloo

这个方法就是有些前置工作了。

2.4.1

为了启动不同的进程,我们需要对所有的计算进程进行初始化。

torch.distributed.init_process_group(backend,init_method=None,timeout=datatime.timedelta(0,1800),world_size=-1,rank=-1,store=None,group_name='')

backend参数就是前面提到的分布式框架后端

2.4.2

为了让多进程训练的每个进程能够分配到不同的输入数据,我们可以定义个数据载入器

train_dataset = datasets.ImageFolder(
traindir,
transform.Compose([
    transform.RandomResizedCrop(224),
    ...
    normalize,
})
)
    分布式采样器对数据进行分割,给每个进程分配独立的数据
train_sampler = torch.utils.data.distributed.DistributedSampler=(train_dataset)
    
train_loader = torch.utils.data.DataLoader(
train_dataset,batch_size =args.batch_size,
shuffle=(train_sampler is None),
num_workers=args.workers,pin_memory =True,
    sampler=train_sampler

)

tips1,如果设置数据采样器,shuffle需要设置为False。

tips2,为了让每个迭代器所有的进程能够合理进行分割和随机排列,需要固定一个随机种子,因此次迭代开始的时候需要先运行train_sampler.set_epoch(epoch)

2.4.3

在分布式进程启动和数据载入后,就是并行模型的构建运行了,这个比较简单

torch.nn.parallel.DistributedDataParallel(
modle,device_ids=NOne,output_device=None,dim=0,broadcast_buffers=True,process_group=None,bucket_cap_mb=25,find_unused_parameters=False,check_reduction=False)

2.4.4

在分布式计算时,如果使用IO函数,输出时候进程会有竞争输出报错的可能,因此,需要具体设置

 if not args.multiprocessing_distributed or(args.multiprocessing_distributed
                                            
   and args.rank %ngpus_per_node ==0
       #可看到只有当GPU里的进程id=0时候才进行保存                                    ):
        save_checkpoint({
            'epoch':epoch+1,
            "atch":args.arch,
            'state_dict':model.state_dict(),
            'best_accl':best_accl,
            'optimizer':optimizer.state_dict(),
            
        },is_best)
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: 在 PyTorch 中写并行计算代码需要使用到多线程和多进程,这里介绍两种常用的方法。 1. 使用多线程 在 PyTorch 中,我们可以使用 torch.nn.DataParallel 来将模型的计算进行并行。 ```python import torch import torch.nn as nn # 定义模型 model = nn.Linear(10, 10) # 使用多线程并行 model = nn.DataParallel(model) # 在模型的 forward 函数中调用 model 即可实现并行计算 output = model(input) ``` 2. 使用多进程 在 PyTorch 中,我们可以使用 torch.nn.parallel.DistributedDataParallel 来将模型的计算进行并行。 ```python import torch import torch.nn as nn import torch.nn.parallel # 定义模型 model = nn.Linear(10, 10) # 使用多进程并行 model = torch.nn.parallel.DistributedDataParallel(model) # 在模型的 forward 函数中调用 model 即可实现并行计算 output = model(input) ``` 注意,使用 DistributedDataParallel 需要先启动分布式训练环境,具体方法可以参考 PyTorch 的官方文档。 ### 回答2: 使用PyTorch可很方便地实现并行计算。PyTorch中的nn.DataParallel类可用于并行处理多个GPU上的模型训练。以下是一个简单的代码示例: ```python import torch import torch.nn as nn import torch.optim as optim from torch.nn.parallel import DataParallel # 定义模型 class Model(nn.Module): def __init__(self): super(Model, self).__init__() self.linear = nn.Linear(10, 1) def forward(self, x): return self.linear(x) # 数据准备 input_data = torch.randn(100, 10) target = torch.randn(100, 1) # 将模型放到CUDA上 model = Model().cuda() # 使用DataParallel类包装模型 parallel_model = DataParallel(model) # 定义损失函数与优器 criterion = nn.MSELoss() optimizer = optim.SGD(model.parameters(), lr=0.01) # 模型训练 for epoch in range(10): # 将数据传递给并行模型 inputs = input_data.cuda() targets = target.cuda() # 前向传播 outputs = parallel_model(inputs) loss = criterion(outputs, targets) # 反向传播与优 optimizer.zero_grad() loss.backward() optimizer.step() print('Epoch:', epoch+1, 'Loss:', loss.item()) ``` 在代码中,我们首先定义了一个简单的模型类`Model`,然后准备输入数据和目标数据。接下来,我们将模型放到CUDA上,并使用`DataParallel`类进行包装,此时模型就可以在多个GPU上进行并行计算。 在训练过程中,我们需要将输入数据也放到CUDA上,然后将数据传递给并行模型进行前向传播。接下来,根据模型的输出和目标数据计算损失,并进行反向传播与优。 最后,我们可以观察每个epoch的损失值输出。 这样,PyTorch就可以很方便地实现并行计算了。 ### 回答3: 使用PyTorch进行并行计算的代码,可以通过使用`torch.nn.DataParallel`模块来实现。以下是一个简单的示例代码: 首先,导入必要的库: ``` import torch import torch.nn as nn import torch.optim as optim from torch.nn.parallel import DataParallel ``` 接下来,定义一个模型,这里以一个简单的线性模型为例: ``` class LinearModel(nn.Module): def __init__(self): super(LinearModel, self).__init__() self.fc = nn.Linear(10, 1) # 输入维度为10,输出维度为1 def forward(self, x): return self.fc(x) ``` 然后,通过实例模型并将其包装在`DataParallel`中,以实现并行计算: ``` model = LinearModel() model = DataParallel(model) ``` 接下来,定义训练循环: ``` criterion = nn.MSELoss() # 定义损失函数 optimizer = optim.SGD(model.parameters(), lr=0.01) # 定义优器 # 假设有训练数据x和对应的标签y x = torch.randn(100, 10) # 随机生成大小为100x10的张量 y = torch.randn(100, 1) for epoch in range(10): # 进行10个epoch的训练 optimizer.zero_grad() # 梯度清零 # 使用并行计算模型进行前向传播 outputs = model(x) loss = criterion(outputs, y) # 计算损失 loss.backward() # 反向传播 optimizer.step() # 更新模型参数 ``` 以上就是使用PyTorch进行并行计算的基本代码,通过将模型包装在`DataParallel`中,可以自动将计算分发给多个GPU进行并行运算,提高训练速度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小菜学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值