python内存一直增加_当word>0时，Python数据加载器为num，内存消耗逐渐增加，最终达到oom,PytorchDataLoader,numworder0,占用,增大,OOM...

最新推荐文章于 2023-02-08 20:32:59 发布

weixin_39993454

最新推荐文章于 2023-02-08 20:32:59 发布

阅读量562

点赞数

文章标签： python内存一直增加

现象

内存占用随着训练过程逐渐增大，最终Out of memory。即使将不再用到的变量及时删除并使用gc.collect()，也无法解决。

解决方案

方案1：Dataset 的成员变量避免使用Python原生数据格式

以下面的Dataset代码为例，如果使用

self.data = [x for x in range(24000000)]

，即使用了List作为Dataset的成员变量，当

num_worker>0

时就会导致前面的现象，而改用numpy ndarray 包装一下就没问题了。另外，参考资料3里面说用DataFrame也会有问题。

小结：定义Dataset的成员变量时，使用 numpy ndarray 代替 List 和 DataFrame.

from torch.utils.data import Dataset, DataLoader

import numpy as np

import torch

class DataIter(Dataset):

def __init__(self):

self.data = [x for x in range(24000000)] # 有内存溢出风险！！！

# 改成下面这样可以避免！

self.data = np.array([x for x in range(24000000)])

def __len__(self):

return len(self.data)

def __getitem__(self, idx):

data = self.data[idx]

data = np.array([data], dtype=np.int64)

return torch.tensor(data)

方案2：将 num_worker 设成 < 总CPU物理核心数

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数

# 查看物理CPU个数

cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

# 查看每个物理CPU中core的个数(即核数)

cat /proc/cpuinfo| grep "cpu cores"| uniq

例如我的机器得到结果是物理CPU个数 1 乘以 7个物理核/CPU=总7个物理核心，所以需要将 num_worker 设得比7更小，例如可以设为 5(设为5表示有5个子进程，加上主进程，整个训练的过程就启动了6个进程).

方案3：将num_worker设为0

如果前面的方案都不奏效，而且2个一起用上也没用的话，最后还可以考虑将num_worker设为0，设为0表示只使用主进程进行加载数据。

参考资料

[1] https://discuss.pytorch.org/t/num-workers-in-dataloader-will-increase-memory-usage/28522/7

[2] https://github.com/pytorch/pytorch/issues/13246

[3] https://github.com/pytorch/pytorch/issues/5902

weixin_39993454

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。