Pytorch使用DataLoader, num_workers!=0时的内存泄露

原创

已于 2023-10-08 09:05:03 修改

· 2.2k 阅读

8 ·

版权

文章标签：

#pytorch #人工智能 #python #DataLoader

于 2023-10-08 01:00:56 首次发布

描述一下背景，和遇到的问题：

我在做一个超大数据集的多分类，设备Ubuntu 22.04+i9 13900K+Nvidia 4090+64GB RAM，第一次的训练的训练集有700万张，训练成功。后面收集到更多数据集，数据增强后达到了1000万张。但第二次训练4个小时后，就被系统杀掉进程了，原因是Out of Memory。找了很久的原因，发现内存随着训练step的增加而线性增加，猜测是内存泄露，最后定位到了DataLoader的num_workers参数（只要num_workers=0就没有问题）。

真正原因：

Python（Pytorch）中的list转换成tensor时，会发生内存泄漏，要避免list的使用，可以通过使用np.array来代替list。

解决办法：

自定义DataLoader中的Dataset类，然后Dataset类中的list全部用np.array来代替。这样的话，DataLoader将np.array转换成Tensor的过程就不会发生内存泄露。

下面给两个错误的示例代码和一个正确的代码：（都是我自己犯过的错误）

1.错误的DataLoader加载数据集方法1

# 加载数据
train_data = datasets.ImageFolder(root=TRAIN_DIR_ARG, transform=transform)
valid_data = datasets.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DeepHacking

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python中的内存泄漏及其分析方法

UkyzJava的博客

09-23

1644

缓存对象未正确管理：在某些情况下，为了提高性能，程序会使用缓存来存储一些对象。对象引用未释放：当一个对象不再被使用时，如果其引用计数没有归零，垃圾回收机制无法回收该对象所占用的内存。对象引用未释放：当一个对象不再被使用时，如果其引用计数没有归零，垃圾回收机制无法回收该对象所占用的内存。内存泄漏是一个常见的编程问题，它指的是程序在使用完内存后未正确释放，导致内存占用不断增加，最终耗尽系统资源。内存泄漏是一个常见的编程问题，它指的是程序在使用完内存后未正确释放，导致内存占用不断增加，最终耗尽系统资源。

Windows系统 pytorch dataloader num_workers大于0 broken pipe 问题 spawn

ga39lev的博客

07-20

1350

windows系统中，当pytorch的dataloader的num_workers>0时，报错brokenpipe；但是num_workers=0则无问题。在实例化DataLoader时，指定‘loky’作为multiprocessing_context。

参与评论您还未登录，请先登录后发表或查看评论

c++ 清除list占用的内存_pytorch内存泄露-dataloader

weixin_29475313的博客

12-24

920

pytorch在转换tensor时可能存在内存泄露问题，这一点在网上已经有许多介绍，比如知乎上的这一篇：pytorch内存泄漏分析案例 | list转tensor，这篇文章提到的内存泄露问题，是说在大量进行这一步torch.tensor(list_of_np_scalars)时，占用内存（不是GPU显存）会不断增大，最后超出内存限制引起程序崩溃，这个问题只在pytorch版本<1.3时存在。...

Pytorch中的DataLoader内存泄漏导致RAM爆炸

Chic_Chen的博客

08-03

3419

最近跑一个新模型，但是刚开始跑一个epoch，就爆出了CUDA的OOM，看了一眼是RAM占用满了。一开始很懵逼，后面用memory profiler来检查一下，发现内存占用直线上升。到GitHub上提issue，作者让我用larger RAM…（只能说钱多任性) 自己肯定得想办法解决，于是接着用memory profiler分析了每行代码和objgraph查看各变量内存占用情况。最后定位在DataLoader有问题。 ...

深度学习篇---num_works选择

最新发布

道阻且长，行则将至。

04-04

1350

在 PyTorch 的 DataLoader 中，num_workers参数控制数据加载时的并行子进程数量。合理选择该参数可以显著提升数据加载效率，避免训练瓶颈。默认推荐：从开始，逐步增加并观察训练速度。

pytorch 训练过程内存泄露/显存泄露debug记录：dataloader和dataset导致的泄露

Cleo_Gao的博客

08-06

6131

查找内存泄露/显存泄露的位置：把数据送入模型的代码全部注释掉，观察显存是否上涨；上涨说明内存泄露出现在dataloader（出现在非 dataloader 地方的最常见的显存泄露原因是，loss打印/统计的时候没有写把不同的 data 组成部分注释掉，观察具体是哪个 data 导致的内存泄露pytorch 释放内存的方法：把 tensor 读到 gpu 就会有显存占用，一般可以自动释放，但是显存泄露的时候就没法释放。找到没有及时释放的代码位置，然后首先del tensor标记删除，随后需要调用。

Pytorch DataLoader 内存泄漏 RuntimeError: received 0 items of ancdata

pyxiea

08-16

5665

现象内存占用随着训练过程逐渐增大，最终Out of memory。即使将不再用到的变量及时删除并使用gc.collect()，也无法解决。解决方案方案1：Dataset 的成员变量避免使用Python原生数据格式以下面的Dataset代码为例，如果使用 self.data = [x for x in range(24000000)]，即使用了List作为Dataset的成员变量，当 num_worker>0 时就会导致前面的现象，而改用numpy ndarray 包装一下就没问题了。另外，参考

pytorch中的内存泄漏问题解决方案

weixin_43721873的博客

06-06

1420

发现代码在训练的过程中内存占用量越来越大，直至被系统内核kill掉。

训练的过程中内存一直增加的问题（内存泄漏）、如何检查是否内存泄漏

Drug discovery

05-23

2022

【代码】训练的过程中内存一直增加的问题。

解决pytorch DataLoader num_workers出现的问题

01-20

最近在学pytorch,在使用数据分批训练时在导入数据是使用了 DataLoader 在参数 num_workers的设置上使程序出现运行没有任何响应的结果，看看代码 import torch #导入模块 import torch.utils.data as Data BATCH_...

pytorch中dataloader的prefetch_factor出错

horsetaill的博客

02-18

3536

可以看到报错信息是：prefetch_factor这个属性只有在num_workers大于0的时候才能被定义。但是我去看了看源码，很明显train源码中定义没有问题啊！然后我在github上的pytorch的issue中发现了有人提出了疑问。这是跑示例遇到的最后一个坑！

windows下pytorch的dataloader多进程（num_workers）问题，为何num_workers的值只能为0？

qq_64431512的博客

03-05

3828

windows下pytorch的dataloader多进程（num_workers）问题，为何只能为0？ RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase. This probably means that you are not using fork to

DataLoader的num_workers=0对训练有什么影响？如何弥补？可以通过增加训练的epoch弥补吗？...

weixin_42611177的博客

02-09

2163

PyTorch的DataLoader类中的num_workers参数表示数据读取时使用的线程数量。如果num_workers=0，则表示不使用多线程，数据读取和预处理都在主线程中进行。在这种情况下，如果数据预处理时间过长，会导致训练的速度变慢。因此，可以通过设置num_workers>0来弥补，以并行地加速数据读取和预处理。增加训练的epoch可以提高训练的精度，但不能弥补数据读取的速度...

Pytorch Dataloder之num_workers(上篇：单进程加载器)

gy77

04-23

1574

3.2 先看_SingleProcessDataLoaderIter，单进程迭代器相比多进程迭代器整体逻辑会简单些，本文先讲单进程迭代器，后续会出一篇单独讲多进程迭代器。1. 在从dataloader中取数据时，先调用dataloader的__iter__方法，__iter__方法中，则会优先调用self._get_iterator()方法，返回一个迭代器的实例化对象。num_workers=1时，表示采用多进程方法加载数据，但是只有一个子进程，使用该子进程加载数据。

PyTorch中的dataloader环节内存爆炸问题

qq_35284646的博客

05-04

2580

引入pin_memory这一参数解决内存占用过多问题

Docker容器中Pytorch DataLoader设置num_works>0 程序假死

qq_32224299的博客

03-03

3776

pytorch版本是0.3，当设置DataLoader的num_works>0时，程序假死。解决方案如下： 1.使用的pytorch至少到0.4版本(至少我使用0.4.1的版本没有问题)。 2.再将容器的shm-size设置为需要的大小。值太小，当batchsize或num_works大时，问题可能会继续出现。我设置为内存的一半大小。因为没有服务器root权限，因此我的具体方法是创建...

num_works=0-----------bug1

qq_38335768的博客

08-12

902

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memor ry（shm）解决看到许多人的解决方法是让dataloader中的num_works置为0 好难找，不过确实解决成功了从报错的地方找自己的dataloader.py文件的地址，我的在 /root/anaconda3/envs/pytorch/lib/python3.6/site-packages/tor

记录关于在Linux下使用pytorch炼丹，在dataload中num_workers只能等于0，设置其他值报错的问题

qq_40271389的博客

07-16

1250

在Linux系统中，在dataload设置num_workers为其他值时报错分析。

PyTorch实战：探索Dataloader的num_workers工作机制

fengbeely的博客

07-25

238

最近遇到一个问题，发现dataloader中数据加载异常的慢，慢慢的排查到了dataloader这一步，我以前一直以为num_work共同维护一个大小为batch size的队列，但是不是，它每次会开启num_work个线程，分别去加载dataset里面的数据，直到每个worker加载数据量为batch size 大小（num_work*batch_size）才会进行下一步训练。而不是我之前理解的，只要总数据量达到batch size就立刻进行下一步训练。

Pytorch使用DataLoader, num_workers!=0时的内存泄露

描述一下背景，和遇到的问题：

真正原因：

解决办法：

下面给两个错误的示例代码和一个正确的代码：（都是我自己犯过的错误）

1.错误的DataLoader加载数据集方法1