【DDP踩坑记录】在0卡上出现多个进程

最新推荐文章于 2024-08-25 09:53:04 发布

Ll7_ll

最新推荐文章于 2024-08-25 09:53:04 发布

阅读量308

点赞数 1

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/Ll7_ll/article/details/133362858

版权

在使用DDP:DistributedDataParallel时，0卡上总是有多个进程

问题描述
- 多个进程或显存占用不均匀可能的原因

问题描述

在使用DDP训练时，发现0卡(或默认的第一张卡)上总是出现多个进程，这样就大大耽误我的计算效率！因为第一张卡爆了整个训练过程都要停下来！

这篇很棒，很多踩坑记录，我也是从这里得到我的解决方案：
https://www.zhihu.com/question/351342218
一个好的DDP程序：
应该是每张卡都占用的差不多，不会差特别多(不然就直接写DP了)

多个进程或显存占用不均匀可能的原因

使用tensor.cuda() ，使得新数据都默认在0卡上初始化；
torch.load参数默认加载到0卡上，
解决方法：
①

//将数据放到cpu上
checkpoint = torch.load("checkpoint.pth",map_location=torch.device('cpu'))

②

//将数据放到当前进程所在的卡上；
checkpoint = torch.load("checkpoint.pth",map_location=f"cuda:{local_rank}")

！！！实例化 model 时，如果你的模型在初始化时，其实也实例化了其他部件(将模型中的module作为一个可学习模型)，一定要注意其实例化要加载到当前的gpu上！！** (我找了好久，原来在模型里面)** ；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ll7_ll

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
【DDP踩坑记录】在0卡上出现多个进程

pytorch ddp 踩坑记录
复制链接

扫一扫

【进程丢失】pytorch DDP分布式训练10个epoch就丢失1个GPU进程

Hello Word!

05-30

957

现象：已经重复发生过，而且掉进程的卡bus id不一样 Pytorch 版本 1.7.0 ，卡：titan rtx x 8 很奇怪的bug，目前分析的原因： batch size过大，每张卡显存占的太满，导致训练的时候显存爆了？问题：那为什么一开始不爆呢？程序有显存泄漏？显卡过热（这个目前应该不是引起的原因，因为散热风挡已经开到最大，温度最多70度左右） ...

Pytorch使用DDP加载预训练权重时出现占用显存的多余进程

不屈不挠的拉普

09-16

2133

感谢知乎作者 https://www.zhihu.com/question/67209417/answer/866488638 在使用DDP进行单机多卡分布式训练时，出现了在加载预训练权重时显存不够的现象，但是相同的代码单机单卡运行并不会出现问题，后来发现是在多卡训练时，额外出现了3个进程同时占用了0卡的部分显存导致的，而这3个进程正是另外3张卡load进来的数据，默认这些数据被放在了0卡上。解决的方法是把load进来的数据放在cpu（也就是内存）里。 # 原来代码，load进的数据放在gpu里 # pre

2 条评论您还未登录，请先登录后发表或查看评论

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

cax1165

07-19

5902

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题，此问题可能导致GOU0在训练过程中爆显存。

DDP额外进程显存占用

Hellowdolphins的博客

04-22

335

但是有时候这种方式可能并不能解决问题，此时可以尝试将find_unused_parameters设置为False，即。这里的rank就是你的GPU号。

关于pytorch 使用DDP模式（torch.nn.parallel.DistributedDataParallel）时，DistributedSampler(dataset)用法解释

热门推荐

05-16

1万+

最近由于要用到多卡去训模型，尝试着用DDP模式，而不是DP模式去加速训练（很容易出现负载不均衡的情况）。遇到了一点关于DistributedSampler这个采样器的一点疑惑，想试验下在DDP模式下，使用这个采样器和不使用这个采样器有什么区别。实验代码：整个数据集大小为8,batch_size 为4，总共跑2个epoch import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader from

torch DDP多卡训练教程记录

岁月如歌

11-10

915

简明教程看这里 -->--》详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

955

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

HuChiLiang.rar_ddp666.com_进程_进程隐藏

09-21

**进程互斥**是指在多进程环境中，确保某一时刻只有一个进程能访问特定的资源或执行特定的任务。这通常通过锁机制来实现，如互斥量（Mutex）。当一个进程获得了互斥量的所有权，其他试图获取该互斥量的进程将被阻塞...

matlab多射击差分动态规划算法(MS-DDP)在MATLAB中实现，并结合几个机器人实例.zip

05-15

这种算法结合了差分动态规划（DDP）和多射击方法（Multiple Shooting）的优点，能够高效地处理复杂的动态系统优化问题，尤其是在机器人路径规划和控制领域有广泛应用。差分动态规划（DDP）是一种迭代优化方法，它...

hello-meteor-android-ddp:通过DDP在Android本机上使用Meteor的示例

05-10

【标题】"hello-meteor-android-ddp:通过DDP在Android本机上使用Meteor的示例"揭示了一个项目，旨在展示如何在Android设备上利用DDP（Distributed Data Protocol）与Meteor应用程序进行通信。DDP是Meteor框架的核心...

xenomai与普通linux进程之间通信——XDDP（nRT->RT）.docx

10-30

XDDP是一个基于消息队列的通信协议，允许实时进程与非实时进程之间进行数据交换。在Xenomai中，实时进程可以使用XDDP协议与非实时进程进行通信。非实时进程可以通过使用XDDP协议将数据发送到实时进程，而实时进程...

解决ddp多卡训练GPU:0显存占用比其他卡大的问题

weixin_56759664的博客

07-25

777

2.将下面代码放在训练代码前，确保在进行分布式训练时，每个进程在初始化时都设置了正确的CUDA设备，并清除了CUDA缓存。

解决多卡加载预训练模型时，卡0总会比其他卡多占用显存，多卡占用显存不均

mumuximmmmmm的博客

09-07

2370

多卡训练卡0占用显存多，卡0占用显存多余其他卡

深度学习学习经验——全连接神经网络（FCNN）

qq_41065669的博客

08-22

798

全连接神经网络（FCNN）是最基础的神经网络结构，它由多个神经元组成，这些神经元按照层级顺序连接在一起。每一层的每个神经元都与前一层的每个神经元连接。接待区交流区和结果区。

深度学习--自监督学习

最新发布

GDHBFTGGG的博客

08-25

669

自监督学习是一种无需大量人工标注的数据驱动方法，在生成模型中应用广泛。自监督学习通过利用数据中的固有结构或属性创建“伪标签”，使模型在没有人工标签的情况下进行学习。这种方法既提高了模型的训练效率，又降低了对标注数据的依赖。

深度学习学习经验——长短期记忆网络（LSTM）

qq_41065669的博客

08-23

1080

长短期记忆网络（LSTM，Long Short-Term Memory）是一种特殊的循环神经网络（RNN），专为解决 RNN 中长期依赖问题而设计。

【机器学习】CNN的数学基础

鑫宝的博客

08-20

711

卷积神经网络（Convolutional Neural Network，CNN）作为深度学习中的重要模型，其强大性能背后蕴含着丰富的数学原理。本文将深入探讨CNN的数学基础，包括卷积运算、激活函数、池化操作、反向传播算法以及优化方法等核心概念。通过对这些数学基础的理解，我们可以更好地把握CNN的本质，为进一步优化和创新CNN模型奠定基础。

爆改YOLOv8 | 利用YOLOv9最新的SPPELAN模块改进SPPF

weixin_43986124的博客

08-23

302

yolov8，yolov9,yolov8涨点，提升精度

transformer模型在多个GPU上训练

06-03

要在多个GPU上训练Transformer模型，可以使用PyTorch的`nn.parallel.DistributedDataParallel`模块。这个模块可以在多个GPU和多个计算节点之间并行地训练模型。以下是一个使用`nn.parallel.DistributedDataParallel`模块进行多GPU训练的示例：首先，需要将代码包裹在一个`torch.multiprocessing.spawn`函数中，该函数将启动多个进程。在这个函数中，需要指定每个进程运行的函数，以及要传递给这个函数的参数。 ```python import torch import torch.nn as nn import torch.distributed as dist import torch.multiprocessing as mp from torch.nn.parallel import DistributedDataParallel as DDP from torch.utils.data import DataLoader # 定义模型 class TransformerModel(nn.Module): def __init__(self): super(TransformerModel, self).__init__() # ... def forward(self, x): # ... return output # 定义训练函数 def train(rank, world_size): # 初始化进程组 dist.init_process_group("gloo", rank=rank, world_size=world_size) # 初始化模型和数据加载器 model = TransformerModel() train_data = DataLoader(...) val_data = DataLoader(...) # 将模型和数据加载器移动到设备上 device = torch.device("cuda", rank) model.to(device) train_data = train_data.to(device) val_data = val_data.to(device) # 对模型进行分布式并行 model = DDP(model, device_ids=[rank]) # 定义优化器和损失函数 optimizer = torch.optim.Adam(...) criterion = nn.CrossEntropyLoss() # 训练模型 for epoch in range(num_epochs): for i, (inputs, labels) in enumerate(train_data): # 前向传播 outputs = model(inputs) loss = criterion(outputs, labels) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() # 在验证集上测试模型 with torch.no_grad(): total_loss = 0 for inputs, labels in val_data: inputs = inputs.to(device) labels = labels.to(device) outputs = model(inputs) loss = criterion(outputs, labels) total_loss += loss.item() avg_loss = total_loss / len(val_data) print("Rank", rank, "Epoch", epoch, "Validation Loss:", avg_loss) # 清理进程组 dist.destroy_process_group() # 启动多个进程进行训练 if __name__ == "__main__": num_processes = 2 world_size = num_processes mp.spawn(train, args=(world_size,), nprocs=num_processes, join=True) ``` 在上面的代码中，先使用`dist.init_process_group`函数初始化进程组，然后指定模型和数据加载器在哪个设备上运行，并使用`DDP`对模型进行分布式并行。在训练过程中，每个进程都会收到自己的数据，并在自己的设备上进行训练和反向传播。最后，在每个进程中测试模型并输出验证集上的损失。需要注意的是，`nn.parallel.DistributedDataParallel`模块需要使用分布式后端（如`gloo`）进行通信。在实际使用时，还需要注意使用相同的分布式后端和相同的端口号。