以下脚本生成100个大小为100000的随机词典,将每个(键,值)元组提供给队列,而一个单独的进程从队列中读取:
import multiprocessing as mp
import numpy.random as nr
def get_random_dict(_dummy):
return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5))))
def consumer(q):
for (k, v) in iter(q.get, 'STOP'):
pass
q = mp.Queue()
p = mp.Process(target=consumer, args=(q,))
p.start()
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
for k, v in d.iteritems():
q.put((k, v))
q.put('STOP')
p.join()
我期望内存使用量保持不变,因为消费者进程在主进程提供数据时从队列中提取数据.我确认数据不会累积在队列中.
但是,我监视了内存消耗,并随着脚本的运行而不断增加.如果我在xrange(100)中用_替换了imap_unordered:d = get_random_dict(),那么内存消耗是不变的.解释是什么?
解决方法:
Pool.imap与imap在字面上不完全相同.它是相同的,它可以像imap一样使用,并返回一个迭代器.但是,实施完全不同.无论迭代器的消耗速度如何,备份池都将尽可能快地完成所有给予它的作业.如果您只希望在请求时处理作业,那么使用多处理就没有意义了.也可以使用itertools.imap并完成它.
因此,您的内存消耗增加的原因是池创建字典的速度比消费者进程消耗它们的速度快.这将是因为池从工作进程检索结果的方式是单向的(一个进程写入和处理读取),因此不需要显式同步机制.然而,队列是双向的 – 两个进程都可以读取和写入队列.这意味着需要在使用队列的进程之间进行显式同步,以确保它们不竞争将下一个项目添加到队列中或从队列中删除项目(从而使队列处于不一致状态).