释放pytorch占用的gpu显存_pytorch 模型训练时多卡负载不均衡（GPU的0卡显存过高）解决办法（简单有效）...

最新推荐文章于 2024-08-29 03:32:27 发布

皇子在西安

最新推荐文章于 2024-08-29 03:32:27 发布

阅读量2.2k

点赞数

文章标签：释放pytorch占用的gpu显存

本文链接：https://blog.csdn.net/weixin_36257615/article/details/112996322

版权

本文介绍了如何解决PyTorch模型训练时GPU显存占用不均衡的问题，特别是在0卡显存过高的情况下。通过自定义的BalancedDataParallel类，调整0卡的batch_size，实现GPU显存的均衡使用，从而避免out of memory并提高batch_size。这种方法尤其适用于多GPU训练场景。

摘要由CSDN通过智能技术生成

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。

如下图所示：本机GPU卡为TITAN RTX，显存24220M，batch_size = 9，用了三张卡。第0卡显存占用24207M，这时仅仅是刚开始运行，数据只是少量的移到显卡上，如果数据在多点，0卡的显存肯定撑爆。出现0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。

因此，为了防止训练由于 out of memory 而中断。比较笨的办法是将batch_size设为6，即每张卡放2条数据。

batch_size = 6时，其他不变，如下图所示

有没有发现问题？显存只用了1，2卡的显存只用了16G不到。就因为0卡可能会超那么一点点显存，而牺牲了batch_size。

那么没有更优雅的方法呢？答案是肯定的。那就是借用下transformer-xl中用到的 BalancedDataParallel类。代码如下(代码出处)&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

皇子在西安

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

PyTorch训练（二）：DP（DataParallel）【“单机多卡”训练模式】【简单方便、速度慢、GPU 负载不均衡】【不推荐使用DP，推荐使用DDP】[

u013250861的博客

05-20

1024

一、概述我们知道 PyTorch 本身对于单机多卡提供了两种实现方式 DataParallel（DP）：Parameter Server模式，一张卡位reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式训练，但是也可用于单机多卡。 DataParallel（DP）是基于Parameter server的算法，实现比较简单，只需在原单机单卡代码的基础上增加一行： model = nn.DataParallel(m

基于pytorch框架使用多gpu训练时，如何有效降低显存

do_what_i_like的博客

05-15

2450

基于pytorch框架使用多gpu训练时，如何有效降低显存文章目录基于pytorch框架使用多gpu训练时，如何有效降低显存1. 问题阐述2. 解决方案2.1 周期性使用`torch.cuda.empty_cache()`函数2.2 将loss的计算写入网络的`forward()`函数中2.3 采用`del()`函数及时删除创建的中间变量或无用的临时变量2.4 使用relu激活函数时，记得将in...

参与评论您还未登录，请先登录后发表或查看评论

解决多卡加载预训练模型时，卡0总会比其他卡多占用显存，多卡占用显存不均

mumuximmmmmm的博客

09-07

2526

多卡训练卡0占用显存多，卡0占用显存多余其他卡

pytorch 模型训练时多卡负载不均衡（GPU的0卡显存过高）解决办法（简单有效）

最新发布

weixin_40648514的博客

08-29

204

鱼弦：公众号：红尘灯塔，CSDN博客专家、内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构 https://github.com/Peakchen）PyTorch删除模型释放显存1. 简介在使用深度学习框架PyTorch时，当模型较大或...

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

cax1165

07-19

6369

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题，此问题可能导致GOU0在训练过程中爆显存。

【分布式训练】多gpu训练出现负载不均衡，尝试DistributedDataParallel分布式训练

桐原因的博客

04-04

3705

某次训练深度学习模型时，使用*** roberta-large 模型作为基础模块，起初使用 DataParallel *** 的方式，进行单机多卡训练，卡数为2，每张卡显存为10G。训练期间发现，无法使用较大的batch_size，batch_size最大为4。同时，训练时间增加到3个小时一个epoch，时间开销太大。观察GPU利用显存率，0卡占用显存明显比1卡占用的要多，这也是*** DataParallel *** 这种模式的弊端。 *** DataParallel *** 数据传输过程包括： 1.

解决ddp多卡训练GPU:0显存占用比其他卡大的问题

weixin_56759664的博客

07-25

914

2.将下面代码放在训练代码前，确保在进行分布式训练时，每个进程在初始化时都设置了正确的CUDA设备，并清除了CUDA缓存。

pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题

qq_44846512的博客

03-25

5184

最近在做图像分类实验时，在4个gpu上使用pytorch的DataParallel 函数并行跑程序，批次为16时会报如下所示的错误： RuntimeError: CUDA out of memory. Tried to allocate 858.00 MiB (GPU 3; 10.92 GiB total capacity; 10.10 GiB already allocated; 150.69 MiB free; 10.13 GiB reserved in total by PyTorch)

PyTorch 单机多GPU 训练方法与原理整理

c___c18的博客

10-30

5797

这里整理一些PyTorch单机多核训练的方法和简单原理。

PyTorch训练（三）：DDP（DistributedDataParallel）【“单机多卡”、“多机多卡”分布式训练模式】【支持混合精度（fp16/fp32）】【只将数据并行，模型大于显卡则不行】

u013250861的博客

05-10

1495

关于pytorch 使用DDP模式（torch.nn.parallel.DistributedDataParallel）时，DistributedSampler(dataset)用法解释

05-16

1万+

最近由于要用到多卡去训模型，尝试着用DDP模式，而不是DP模式去加速训练（很容易出现负载不均衡的情况）。遇到了一点关于DistributedSampler这个采样器的一点疑惑，想试验下在DDP模式下，使用这个采样器和不使用这个采样器有什么区别。实验代码：整个数据集大小为8,batch_size 为4，总共跑2个epoch import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader from

多GPU训练Batchsize对显存占用的影响

u010087277的博客

04-26

2961

多GPU训练模型

使用pytorch的distributeddataparallel遇到GPU0显存不均衡

qq_42296251的博客

01-15

442

使用pytorch的distributeddataparallel遇到GPU0显存不均衡

MindSpore的多GPU负载均衡

zhaoh2001sf的博客

09-13

537

本方法简单却很有效，解决了800人同时共享使用4块GPU的问题，检测结果表明，4块GPU卡负载基本相同。

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

1140

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

【Pytorch】多GPU并行与显存管理

ccamelliatree的博客

05-25

8520

多GPU并行 torch.nn.DataParallel 使用非常简单，基本只需添加一行代码就可扩展到多GPU。原理：首先把模型放在第0块卡上，然后通过nn.DataParallel找到所有可用的显卡并将模型进行复制。运行时将每个batch的数据平均分到不同GPU进行forward计算，将loss汇总到第0卡反向传播，最后将更新后的模型参数再复制到其他GPU中。所以要求batch_size >= GPU数量。如果想限制GPU使用，可以设置os.environ['CUDA_VISIBLE_DEVIC

pytorch单机多卡及常见问题

莫大逗比嘟嘟

11-15

5400

pytorch分布式，常见问题解决。

Pytorch显存分配机制与显存占用分析方法

夕小瑶科技说

08-12

3993

文 | Connolly@知乎（已授权）源 |极市平台作者最近两年在研究分布式并行，经常使用PyTorch框架。一开始用的时候对于PyTorch的显存机制也是一知半解，连蒙带猜的，经常来知乎上来找答案，那么我就吸收大家的看法，为PyTorch的显存机制做个小的总结吧。实验环境：OS: Ubuntu18.04python: 3.7.4PyTorch: 1.9.1GPU: ...

pytorch指定用多张显卡训练_pytorch多gpu并行训练

06-04

你可以使用PyTorch的`torch.nn.DataParallel`模块来实现多GPU并行训练。具体实现步骤如下： 1. 使用`torch.cuda.device_count()`函数检测当前机器上可用的GPU数量，并将模型放到所有可用的GPU上。 2. 使用`torch.nn.DataParallel`将模型封装起来，使其能够在多个GPU上并行运行。下面是一个简单的示例代码： ```python import torch import torch.nn as nn from torch.utils.data import DataLoader # 定义模型和数据加载器 model = MyModel().cuda() data_loader = DataLoader(dataset) # 检测可用的GPU数量，并将模型放到所有可用的GPU上 if torch.cuda.device_count() > 1: print("Let's use", torch.cuda.device_count(), "GPUs!") model = nn.DataParallel(model) # 定义优化器和损失函数 optimizer = torch.optim.Adam(model.parameters(), lr=0.001) criterion = nn.CrossEntropyLoss() # 开始训练 for epoch in range(num_epochs): for batch in data_loader: inputs, labels = batch inputs = inputs.cuda() labels = labels.cuda() optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() ``` 在这个示例代码中，如果机器上有多个GPU，`nn.DataParallel`会自动使用所有可用的GPU来并行运行模型。注意，在使用`nn.DataParallel`时，模型的输入和输出需要是`torch.Tensor`类型，不能是Python原生数据类型，否则会报错。