python内存消耗为什么那么大_python – 多处理队列 – 为什么内存消耗会增加?...

以下脚本生成100个大小为100000的随机词典,将每个(键,值)元组提供给队列,而一个单独的进程从队列中读取:

import multiprocessing as mp

import numpy.random as nr

def get_random_dict(_dummy):

return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5))))

def consumer(q):

for (k, v) in iter(q.get, 'STOP'):

pass

q = mp.Queue()

p = mp.Process(target=consumer, args=(q,))

p.start()

for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):

for k, v in d.iteritems():

q.put((k, v))

q.put('STOP')

p.join()

我期望内存使用量保持不变,因为消费者进程在主进程提供数据时从队列中提取数据.我确认数据不会累积在队列中.

但是,我监视了内存消耗,并随着脚本的运行而不断增加.如果我在xrange(100)中用_替换了imap_unordered:d = get_random_dict(),那么内存消耗是不变的.解释是什么?

解决方法:

Pool.imap与imap在字面上不完全相同.它是相同的,它可以像imap一样使用,并返回一个迭代器.但是,实施完全不同.无论迭代器的消耗速度如何,备份池都将尽可能快地完成所有给予它的作业.如果您只希望在请求时处理作业,那么使用多处理就没有意义了.也可以使用itertools.imap并完成它.

因此,您的内存消耗增加的原因是池创建字典的速度比消费者进程消耗它们的速度快.这将是因为池从工作进程检索结果的方式是单向的(一个进程写入和处理读取),因此不需要显式同步机制.然而,队列是双向的 – 两个进程都可以读取和写入队列.这意味着需要在使用队列的进程之间进行显式同步,以确保它们不竞争将下一个项目添加到队列中或从队列中删除项目(从而使队列处于不一致状态).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值