python内存消耗为什么那么大_python – 多处理队列 – 为什么内存消耗会增加？...

最新推荐文章于 2022-10-29 00:38:00 发布

weixin_39688856

最新推荐文章于 2022-10-29 00:38:00 发布

阅读量297

点赞数

文章标签： python内存消耗为什么那么大

以下脚本生成100个大小为100000的随机词典,将每个(键,值)元组提供给队列,而一个单独的进程从队列中读取：

import multiprocessing as mp

import numpy.random as nr

def get_random_dict(_dummy):

return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5))))

def consumer(q):

for (k, v) in iter(q.get, 'STOP'):

pass

q = mp.Queue()

p = mp.Process(target=consumer, args=(q,))

p.start()

for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):

for k, v in d.iteritems():

q.put((k, v))

q.put('STOP')

p.join()

我期望内存使用量保持不变,因为消费者进程在主进程提供数据时从队列中提取数据.我确认数据不会累积在队列中.

但是,我监视了内存消耗,并随着脚本的运行而不断增加.如果我在xrange(100)中用_替换了imap_unordered：d = get_random_dict(),那么内存消耗是不变的.解释是什么？

解决方法:

Pool.imap与imap在字面上不完全相同.它是相同的,它可以像imap一样使用,并返回一个迭代器.但是,实施完全不同.无论迭代器的消耗速度如何,备份池都将尽可能快地完成所有给予它的作业.如果您只希望在请求时处理作业,那么使用多处理就没有意义了.也可以使用itertools.imap并完成它.

因此,您的内存消耗增加的原因是池创建字典的速度比消费者进程消耗它们的速度快.这将是因为池从工作进程检索结果的方式是单向的(一个进程写入和处理读取),因此不需要显式同步机制.然而,队列是双向的 – 两个进程都可以读取和写入队列.这意味着需要在使用队列的进程之间进行显式同步,以确保它们不竞争将下一个项目添加到队列中或从队列中删除项目(从而使队列处于不一致状态).

weixin_39688856

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python内存消耗为什么那么大_python – 多处理队列 – 为什么内存消耗会增加？...

以下脚本生成100个大小为100000的随机词典,将每个(键,值)元组提供给队列,而一个单独的进程从队列中读取：import multiprocessing as mpimport numpy.random as nrdef get_random_dict(_dummy):return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9),...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。