DDP额外进程显存占用

最新推荐文章于 2024-04-04 11:23:39 发布

出门左转观音庙

最新推荐文章于 2024-04-04 11:23:39 发布

阅读量301

点赞数

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/Hellowdolphins/article/details/130302808

版权

DDP额外进程显存占用

在我们使用DDP做并行训练时，时常会碰到0号卡有额外的进程显存占用，常规的问题是在读取预训练模型时在进程0反复读取，这种问题的解决方案可以通过将预训练权重读取至CPU或者在读取权重时设置map_location，例如：

torch.jit.load('xxx.pt', map_location=torch.device(f'cuda:{rank}'))

这里的rank就是你的GPU号。
但是有时候这种方式可能并不能解决问题，此时可以尝试将find_unused_parameters设置为False，即

model_train = torch.nn.parallel.DistributedDataParallel(model_train, device_ids=[local_rank], find_unused_parameters=False)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

出门左转观音庙

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DDP额外进程显存占用

但是有时候这种方式可能并不能解决问题，此时可以尝试将find_unused_parameters设置为False，即。这里的rank就是你的GPU号。
复制链接

扫一扫

HuChiLiang.rar_ddp666.com_进程_进程隐藏

09-21

进程是操作系统中运行程序的实例，每个进程都有自己的内存空间和系统资源，彼此独立。而线程是进程内的执行单元，共享同一进程的资源，线程间的通信和数据交换更为高效。 **进程互斥**是指在多进程环境中，确保某一...

DDP.rar_DDP_DDP java

09-24

基于Java的用于一般大学计算机专业Java课设

1 条评论您还未登录，请先登录后发表或查看评论

【DDP踩坑记录】在0卡上出现多个进程

Ll7_ll的博客

09-27

277

pytorch ddp 踩坑记录

pytorch关于cpu与gpu在加载load时相互转化

swpucwf的博客

02-12

420

模型进行加载 device:表示"GPU",“CPU” weights_dict = torch.load(“model.pth”, map_location=device)

Pytorch使用DDP加载预训练权重时出现占用显存的多余进程

不屈不挠的拉普

09-16

2092

感谢知乎作者 https://www.zhihu.com/question/67209417/answer/866488638 在使用DDP进行单机多卡分布式训练时，出现了在加载预训练权重时显存不够的现象，但是相同的代码单机单卡运行并不会出现问题，后来发现是在多卡训练时，额外出现了3个进程同时占用了0卡的部分显存导致的，而这3个进程正是另外3张卡load进来的数据，默认这些数据被放在了0卡上。解决的方法是把load进来的数据放在cpu（也就是内存）里。 # 原来代码，load进的数据放在gpu里 # pre

DDP分布式训练中遇到的一些问题

xx_xjm的博客

06-11

1170

2：类似于layer_norm这样的操作是无需进行分布式通信的，也无法进行分布式通信，所以在DDP的时候必须把find_unused_parameters设置为True。这个时候可以在命令行前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL, 这样，将找出具体时哪些参数没有接收到梯度，以此更好的调整代码。4：关于0号卡的显存为什么远高于其他卡，暂时不清楚，网上的说法，这种情况时DP才会有的，DDP应该不会出现，希望有知道的大佬能指点一下....遇到在补充..........

【解决警告】多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not

一只菟葵的博客

03-18

1771

解决警告：多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration, which can adversely affect

解决DDP的参数未参与梯度计算

billbliss的专栏

10-06

504

将find_unused_parameters改成False之后，如果出现模型有些参数未参与loss计算等错误。或者，乘以0与模型的loss进行相加，使未用到的参数也参入了loss计算。可以用环境变量来debug查看log。可以将这些未用到的参数注释掉。代码上可以用以下方法查看。

DDP.rar_DDP计算方法

09-24

标题中的“DDP.rar_DDP计算方法”表明这是一个关于DDP（动态规划 Dynamic Programming）算法的压缩包，可能包含了相关的代码、教程或者演示程序。DDP通常用于解决具有重叠子问题和最优子结构的问题，它通过存储和...

ddp.rar_ddp挂机_对对碰

09-22

标题中的“ddp.rar_ddp挂机_对对碰”暗示了这是一个关于“ddp挂机”程序的项目，可能是针对“对对碰”游戏的一个自动化脚本或辅助工具。这个程序是由VC++（Visual C++）编程语言编写的，主要用于研究目的。VC++是...

DDP.rar_DDP java_j2me

09-23

9. **优化技巧**：由于J2ME应用于资源有限的设备，因此优化代码以减少内存占用和提高性能是必要的。在“DDP.rar”这个压缩包中，很可能包含游戏的源代码、资源文件（如图片、音频）、配置文件以及可能的编译后的...

深度学习项目部署：Libtorch使用torch::jit::load加载模型时报错（已解决）

最新发布

简单记录生活、学习

04-04

1641

如果模型的输出有不需要进行反传的(比如部分参数被冻结/或者网络前传是动态的)【如果有forward的返回值如果不在计算loss的计算图里】，设置此参数为True。如果你的代码运行后卡住某个地方不动，基本上就是该参数的问题，设置为find_unused_parameters=True 就可以了find_unused_parameters=True的设置会带来额外的运行时开销（而且还不小）。

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

867

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

深度学习中的踩过的一些坑

记录基于python语言处理气象问题的一些代码，包括不限于气象数据读取、机器学习和深度学习建模。

06-19

2646

深度学习遇到的一些bug和问题不定时更新（希望更新的能越来越少碰不到bug最好）

深入理解pytorch分布式并行处理工具DDP——从工程实战中的bug说起

苹果姐计算机视觉原创知识分享

02-15

3427

近期博主在使用分布式并行处理工具DDP（DistributedDataParallel）训练单目深度估计模型Featdepth（源码地址：https://github.com/sconlyshootery/FeatDepth)时遇到了bug: 原因很容易定位出来：在3D投影模块有以下代码： class Backproject(nn.Module): def __init__(self, batch_size, height, width): super(Backproject,

Warning: find_unused_parameters=True was specified in DDP constructor……

XavierJ的博客

05-27

7538

项目场景使用 Pytorch Lightning 训练模型。问题描述 Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters. This flag results in an extra traversal of the autograd graph every iteration, which can adversely affect pe

xxx.pth或者xxx.pt is a zip archive(did you mean to use torch.jit.load()?问题解决

DG息的博客

10-14

2930

错误：使用torch.load()加载模型参数时，提示“xxx.pt is a zip archive(did you mean to use torch.jit.load()?)“或者“xxx.pth is a zip archive(did you mean to use torch.jit.load()?)“ 错误原因： xxx.pth或者xxx.pt来自pytorch1.6或更高的版本。1.6之后pytorch默认使用zip文件格式来保存权重文件，导致这些权重文件无法直接被1.5及以下的pytorc

pytorch DDP

08-24

DDP使用了一种称为Ring-Reduce的数据交换方法，这种方法提高了通信效率，并且通过启动多个进程的方式减轻了Python GIL（全局解释器锁）的限制。因此，DDP通常比DP（Data Parallel）更快，能够实现略低于使用的卡数的...