使用pytorch的distributeddataparallel遇到GPU0显存不均衡

icewithzero

已于 2024-01-15 22:01:47 修改

阅读量382

点赞数 11

文章标签： pytorch 人工智能 python

于 2024-01-15 21:47:02 首次发布

本文链接：https://blog.csdn.net/qq_42296251/article/details/135611838

版权

在使用distributeddataparallel跑分布式的时候，第一张显卡的内存占用明显高于另外三张显卡（四张显卡，batch size是16，每张卡4个batch），导致内存溢出。

解决方法：在使用torch.load加载预训练模型的时候，设置map_location=‘cpu’

ckpt=torch.load(pretrain_path,map_location='cpu')['model']

如果不生效，建议在初始化模型之前添加以下两行代码

    torch.cuda.set_device(cfg.local_rank)
    torch.cuda.empty_cache()

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

icewithzero

关注关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用pytorch的distributeddataparallel遇到GPU0显存不均衡

使用pytorch的distributeddataparallel遇到GPU0显存不均衡
复制链接

扫一扫

Pytorch DataParallel and DistributedDataParallel

dreamtactic的博客

10-13

586

Pytorch DataParallel and DistributedDataParallel 最近试着使用Pytorch跑单机多卡训练，遇到了不少问题，做个总结和教程方便未来观看。我自己也是一个新手，很多东西总结的不好，有问题请多多指教，不懂的地方可以看参考文档，很多东西写的比我详细（本文只针对单机多卡训练，多机多卡训练未经过验证，请酌情观看）环境： python 3.7 pytorch 1.4.0 DataParallel DataParallel是官方最早提供的一个库，使用非常简单，一行就够了 i

多GPU训练：理解PyTorch中的DataParallel和DistributedDataParallel

最新发布

禅与计算机程序设计艺术

01-23

1369

1.背景介绍在深度学习领域，多GPU训练是一项重要的技术，可以显著加快模型训练的速度。PyTorch是一个流行的深度学习框架，提供了DataParallel和DistributedDataParallel两种多GPU训练方法。在本文中，我们将深入探讨这两种方法的核心概念、算法原理和实际应用场景，并提供一些最佳实践和代码示例。 1. 背景介绍深度学习模型的训练时间通常是计算资源的主要瓶颈。...

参与评论您还未登录，请先登录后发表或查看评论

pytorch 单机多卡--DistributedDataParallel+混合精度--提高速度，减少内存占用

cloudless_sky的博客

08-17

1201

混合精度，并行单机多GPU并行

使用DataParallel和DistributedDataParallel的两种多GPU分布式训练方法包含加载单GPU和多GPU保存的预训练模型权重的迁移学习

leigm

09-15

608

使用DataParallel和DistributedDataParallel的两种多GPU分布式训练方法包含加载单GPU和多GPU保存的预训练模型权重的迁移学习

pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题

qq_44846512的博客

03-25

4892

最近在做图像分类实验时，在4个gpu上使用pytorch的DataParallel 函数并行跑程序，批次为16时会报如下所示的错误： RuntimeError: CUDA out of memory. Tried to allocate 858.00 MiB (GPU 3; 10.92 GiB total capacity; 10.10 GiB already allocated; 150.69 MiB free; 10.13 GiB reserved in total by PyTorch)

DistributedDataParallel数据不均衡

weixin_43870390的博客

10-20

462

在使用 DistributedDataParallel 进行数据并行训练时，每次反向传播都需要执行 all_reduce 操作以同步各个进程的梯度。all_reduce 需要进程组中的所有进程参与，如果某一个进程没有执行 all_reduce（一个进程的输入较其他进程少），那么其他进程将会挂起或出错（取决于后端，nccl 后端会挂起，gloo 后端会报错）。

【分布式训练】多gpu训练出现负载不均衡，尝试DistributedDataParallel分布式训练

桐原因的博客

04-04

3562

某次训练深度学习模型时，使用*** roberta-large 模型作为基础模块，起初使用 DataParallel *** 的方式，进行单机多卡训练，卡数为2，每张卡显存为10G。训练期间发现，无法使用较大的batch_size，batch_size最大为4。同时，训练时间增加到3个小时一个epoch，时间开销太大。观察GPU利用显存率，0卡占用显存明显比1卡占用的要多，这也是*** DataParallel *** 这种模式的弊端。 *** DataParallel *** 数据传输过程包括： 1.

Pytorch 高效使用GPU的操作

09-16

### PyTorch高效使用GPU操作详解 #### 一、引言随着深度学习技术的不断发展，GPU（Graphics Processing Unit，图形处理器）因其强大的并行处理能力，在深度学习领域发挥着越来越重要的作用。相比于传统的CPU...

pytorch使用指定GPU训练的实例

09-18

首先，我们需要理解PyTorch默认会在GPU 0上初始化模型和数据，这可能会导致即使其他GPU空闲，也会因为GPU 0的内存不足而引发`out of memory`错误。为了解决这个问题，我们可以采取以下两种方法： 1. **通过设置环境...

Pytorch 多块GPU的使用详解

09-18

例如，若要使用第0块和第4块GPU，可以通过设置CUDA_VISIBLE_DEVICES="0,4"来实现。在Python代码中，这一操作通常是在脚本的开始处完成的，确保后续的GPU操作都是针对指定的设备。然后，模型需要被转移到GPU上。这...

Balanced-DataParallel:这里是改进了pytorch的DataParallel，使用了平衡第一个GPU的显存使用量

03-21

平衡数据并行这里是改进了pytorch的DataParallel，使用了平衡第一个GPU的显存使用量本代码来自transformer-XL： : 代码不是本人写的，但是感觉很好用，就分享一下。怎么使用：这个BalancedDataParallel类使用起来和DataParallel类似，下面是一个示例代码： my_net = MyNet() my_net = BalancedDataParallel(gpu0_bsz // acc_grad, my_net, dim=0).cuda() 这里包含三个参数，第一个参数是第一个GPU要分配多大的batch_size，但是要注意，如果您使用了渐变累积，那么此处替换的是每次进行运算的实际batch_size大小。举个例子，比如你在3个GPU上面跑代码，但是一个GPU最大只能跑3条数据，但是因为0号GPU还要做一些数据的整合操作，于是0

pytorch 使用单个GPU与多个GPU进行训练与测试的方法

09-18

例如，下面的代码行"device=torch.device("cuda:0" if torch.cuda.is_available() else "cpu")"首先检查是否存在可用的CUDA设备（即GPU），如果存在，则使用GPU（"cuda:0"表示第一个GPU），否则使用CPU。之后，模型...

关于pytorch使用torch.nn.parallel.DistributedDataParallel() 显卡分配不均匀

Freedom_sky_的博客

07-26

804

关于pytorch使用torch.nn.parallel.DistributedDataParallel() 显卡分配不均匀

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

929

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

pytorch中nn.DataParallel（多GPU并行计算）的原理

qq_41154003的博客

03-23

2582

DataParallel（）函数的作用就是将一个batchsize的输入数据均分到多个GPU上分别计算。此处注意，batchsize要大于GPU个数才能划分。 torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 这个函数主要有三个参数： module：即模型，此处注意，虽然输入数据被均分到不同gpu上，但每个gpu上都要拷贝一份模型。 device_ids：即参与训练的gpu列表，例如三块卡， .

pytorch 多GPU训练总结（DataParallel的使用）

热门推荐

不忘初心不动摇

02-28

8万+

这里记录用pytorch 多GPU训练踩过的许多坑仅针对单服务器多gpu 数据并行而不是多机器分布式训练一、官方思路包装模型这是pytorch 官方的原理图按照这个官方的原理图修改应该参照 https://blog.csdn.net/qq_19598705/article/details/80396325 上文也用dataParallel 包装了optimize...

DataParallel 和 DistributedDataParallel 的区别和使用方法

Golden-sun的博客

04-12

8467

1.DataParallel DataParallel更易于使用（只需简单包装单GPU模型）。然而，由于它使用一个进程来计算模型权重，然后在每个批处理期间将分发到每个GPU，因此通信很快成为一个瓶颈，GPU利用率通常很低。 nn.DataParallel要求所有的GPU都在同一个节点上（不支持分布式），而且不能使用Apex进行混合精度训练。 https://zhuanlan.zhihu.com/p/113694038 1.DistributedDataParallel支持模型并行，而DataParallel

pytorch DataParallel 多GPU使用

genous110的博客

04-26

616

单GPU： import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" 多GPU： device_ids = [0,1,2,3] model = model.cuda(device_ids[0]) model = nn.DataParallel(model, device_ids=device_ids) optimizer = optim.SGD(mo...

pytorch选择使用gpu

05-14

在 PyTorch 中使用 GPU 可以大大加速模型训练和推理的速度。要在 PyTorch 中使用 GPU，需要满足以下条件： 1. 安装 GPU 版本的 PyTorch。 2. 安装 GPU 驱动程序和 CUDA 工具包（如果使用 NVIDIA GPU）。 3. 将数据和模型张量移到 GPU 上。下面是使用 GPU 的示例代码： ```python import torch # 检查是否有可用的 GPU device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 将模型和数据张量移到 GPU 上 model.to(device) data = data.to(device) # 在 GPU 上训练模型 for epoch in range(num_epochs): for batch in data_loader: # 前向传递 inputs, targets = batch inputs, targets = inputs.to(device), targets.to(device) outputs = model(inputs) # 计算损失 loss = loss_function(outputs, targets) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() ``` 在这个示例中，我们首先检查是否有可用的 GPU。如果有，我们将模型和数据张量移到 GPU 上，并在 GPU 上进行训练。需要注意的是，在每个批次中，我们都要将输入和目标张量移到 GPU 上进行处理，以便可以在 GPU 上进行前向传递、计算损失、反向传播和优化。