python 性能并不慢_关于性能:Python多处理队列比pool.map慢

我最近开始尝试多处理以加快任务速度。我创建了一个脚本,该脚本执行模糊字符串匹配,并使用不同的算法来计算分数(我想比较不同的匹配技术)。您可以在这里找到完整的源代码:https://bitbucket.org/bergonzzi/fuzzy-compare/src。作为输入,它需要将2个文件组合成对(file1的每一行与file2的每一行)。对于每对,计算模糊匹配分数。

我做了3个版本。使用我的存储库中提供的样本数据(合并成对后包含697.340个项目)运行,我有以下计时:

简单的单一流程-0:00:47

使用Pool.map()进行多进程-0:00:13

使用队列的多进程(生产者/消费者模式)-0:01:04

我试图理解为什么Pool.map()版本比Queue版本要快得多,而Queue版本实际上比简单的单进程版本要慢。

我什至尝试使用Queue的理由是,Pool.map()版本会一直保留结果,直到一切都完成了,并且只在最后写入文件。这意味着对于大文件,它最终会占用大量内存。我正在谈论这个版本(链接到它,因为要在此处粘贴很多代码)。

为了解决这个问题,我将其重构为生产者/消费者模式(或至少尝试过)。在这里,我首先通过组合两个输入文件来制作作业,并将它们放入消费者处理的队列(计算模糊匹配分数)。完成的作业将放入出队列。然后,我只有一个过程从此队列中抓取已完成的项目并将它们写入文件。这样,从理论上讲,我不需要那么多的内存,因为结果将被刷新到磁盘上。似乎工作正常,但速度慢得多。我还注意到,在Mac OSX上查看"活动监视器"时,我正在生成的4个进程似乎并没有用完100%的CPU(Pool.map()版本不是这种情况)。

我注意到的另一件事是,我的生产者功能似乎正确填充了队列,但是使用者进程似乎要等到队列被填充,而不是等到第一项到达后才开始工作。我可能在那儿做错了...

作为参考,这里是Queue版本的一些相关代码(尽管最好查看上面链接中的repo中的完整代码)。

这是我的生产者函数:

def combine(list1, list2):

'''

Combine every item of list1 with every item of list 2,

normalize put the pair in the job queue.

'''

pname = multiprocessing.current_process().name

for x in list1:

for y in list2:

# slugify is a function to normalize the strings

term1 = slugify(x.strip(), separator=' ')

term2 = slugify(y.strip(), separator=' ')

job_queue.put_nowait([term1, term2])

这是writer函数:

def writer(writer_queue):

out = open(file_out, 'wb')

pname = multiprocessing.current_process().name

out.write(header)

for match in iter(writer_queue.get,"STOP"):

print("%s is writing %s") % (pname, str(match))

line = str(';'.join(match) + '

')

out.write(line)

out.close()

这是执行实际计算的辅助函数(从代码中摘录了大部分代码,因为在这里没有什么区别,完整的源代码在仓库中):

def score_it(job_queue, writer_queue):

'''Calculate scores for pair of words.'''

pname = multiprocessing.current_process().name

for pair in iter(job_queue.get_nowait,"STOP"):

# do all the calculations and put the result into the writer queue

writer_queue.put(result)

这是我设置流程的方式:

# Files

to_match = open(args.file_to_match).readlines()

source_list = open(args.file_to_be_matched).readlines()

workers = 4

job_queue = multiprocessing.Manager().Queue()

writer_queue = multiprocessing.Manager().Queue()

processes = []

print('Start matching with"%s", minimum score of %s and %s workers') % (

args.algorithm, minscore, workers)

# Fill up job queue

print("Filling up job queue with term pairs...")

c = multiprocessing.Process(target=combine, name="Feeder", args=(to_match, source_list))

c.start()

c.join()

print("Job queue size: %s") % job_queue.qsize()

# Start writer process

w = multiprocessing.Process(target=writer, name="Writer", args=(writer_queue,))

w.start()

for w in xrange(workers):

p = multiprocessing.Process(target=score_it, args=(job_queue, writer_queue))

p.start()

processes.append(p)

job_queue.put("STOP")

for p in processes:

p.join()

writer_queue.put("STOP")

我在这里已经读到了很多有关多处理有时会变慢的信息??,我知道这与创建和管理新流程的开销有关。同样,当要完成的工作不够"庞大"时,可能看不到多处理的效果。但是在这种情况下,我认为工作量很大,而且Pool.map()版本似乎证明了这一点,因为它的速度要快得多。

在管理所有这些进程并传递队列对象时,我做错什么了吗?如何对其进行优化,以便在处理结果时将其写入文件,以最大程度地减少运行文件时所需的内存量?

谢谢!

我不知道基于队列的系统的性能如何(我看起来还不是很辛苦),但是要解决基于pool版本的内存消耗问题,您可以尝试使用pool.imap来获得迭代器收益由工作进程计算的结果值。在您的map代码中,只需将imap换为map,然后将pool.close和pool.join调用移到写出结果的循环下,您可能会被设置!

非常感谢您的建议,您的解决方案确实解决了内存问题。使用imap,每个进程占用的空间不到100mb,使用map时,每个进程的空间高达1GB。但是它变慢了-在我的测试数据上,使用imap可以得到34秒(而使用map则需要13秒)。知道为什么会这样吗?

它可能与chunksize参数有关。如果我理解正确,默认情况下map使用的块比imap大,如果要映射的序列很长,则可以大大减少开销。

我如何找到理想的块大小来优化性能?谢谢!

ID建议您在不耗尽内存的情况下使用尽可能大的块大小。当然,最大的收益可能会提早出现(从chunksize=1的默认值增加到chunksize=100),但是开销越大,开销就应该越少。 map方法计算与math.ceil(len(iterable) 4.0 cpu_count()))等效的默认块大小,因此也可以从imap开始。

通过测试更大的数据,我发现在速度和内存方面,最大为100的块大小(至少对于此用例而言)提供了最佳结果。额外的进程仅需3MB。使用您建议的公式,每个进程占用太多内存(同样,在我的用例中)。尽管主要过程仍然使用很多(接近1GB),但这可能是因为Im计算了将近一千万个项目的大列表并将其保留在内存中。我仍然找不到通过懒惰的生成器而不是简单列表使用map()的方法...

我认为您的计时问题是您的多线程队列版本缺少优化。您发表的评论实质上是在工作线程开始从中获取作业之前,您的job_queue已填满。我相信这样做的原因是您在#Fill up job queue中具有c.join()。这样可以防止主线程继续执行直到作业队列已满。我将c.join()移到p.join()之后。您还需要找出一种将停止标志放入队列末尾的方法。合并功能可能是放置此内容的好地方。在数据用完后要合并后,添加x个停止标志的方法。

需要注意的另一件事:

您正在开始于p进程的for循环范围内覆盖w变量。作为样式/可读性/等问题,我将w更改为其他变量名称。如果您不使用它,则下划线可以作为一个很好的一次性变量名。

for w in xrange(workers):

应该成为

for _ in xrange(workers):

长话短说,如果将c.join()移至末尾,则应该获得更准确的计时。当前,唯一的多线程处理是字符串的模糊匹配。拥有生产者/消费者线程的优点之一是,消费者线程不必等到生产者线程完成后,因此最终将使用较少的内存。

谢谢你的提示!最后加入"求职者"程序是有道理的……我想我仍然对join()实际所做的事情感到困惑,现在对我来说很清楚。我仍然不太了解您的建议:"您还需要找出一种将停止标志放入队列末尾的方法。Combine函数可能是放置此标记的好地方。类似添加x的方法数据用完后停止标志的数量。" -你到底是什么意思?为什么x个停止标志?以及如何检测到我没有其他数据要合并?

由于您的数据来自文件,因此只要文件用完,便知道您没有其他数据可以合并。您的使用者线程将需要某种信号来知道何时关闭,从而实现"停止"标志。每当使用者线程将作业从队列中拉出且其状态为" STOP"或"无"或类似情况(您必须选择最适合您的应用程序的线程)时,线程便知道它可以关闭。我如何在类似的应用程序上执行此操作,这是我的生产者线程,一旦完成创建作业,就会产生等于使用者线程数量的停止标志。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在 Python 中,使用 `multiprocessing.Pool()` 中的 `apply_async()` 方法可以异步提交进程池任务,并使用队列传递任务结果。 下面是一个使用队列传递返回值的示例代码: ```python import multiprocessing def worker(num, q): """子进程要执行的任务""" result = num * 2 q.put(result) # 将结果放入队列中 if __name__ == '__main__': # 创建队列和进程池 q = multiprocessing.Queue() pool = multiprocessing.Pool() # 提交任务到进程池中 for i in range(5): pool.apply_async(worker, args=(i, q)) # 关闭进程池 pool.close() # 等待所有进程完成任务 pool.join() # 从队列中获取结果 results = [] while not q.empty(): results.append(q.get()) # 输出结果 print(results) ``` 在这个示例中,首先创建了一个队列 `q` 和一个进程池 `pool`。然后,使用 `apply_async()` 方法向进程池提交任务,每个任务都会调用 `worker()` 函数,将计算结果放入队列中。在提交完所有任务后,关闭进程池并等待所有进程完成任务。最后,从队列中获取结果并输出。 需要注意的是,`apply_async()` 方法返回的是一个 `AsyncResult` 对象,可以使用 `get()` 方法获取任务的结果。但是,如果直接使用 `get()` 方法阻塞等待任务完成并获取结果,那么这种方式就是同步的了。因此,我们可以使用队列来异步获取结果,这样可以避免阻塞等待任务完成。 ### 回答2: 在使用`python pool.apply_async()`时,可以通过队列传递函数的返回值。 `pool.apply_async()`函数用于提交进程池中的可调用对象,并返回一个结果对象。通过该结果对象,可以获取可调用对象执行的结果。 为了实现使用队列传递返回值,我们可以先创建一个`multiprocessing.Manager()`对象,然后使用该对象的`Queue()`函数创建一个队列对象。 接下来,在调用`pool.apply_async()`时,将队列对象作为参数传递给可调用对象,使得可调用对象能够将返回值放入队列中。 然后,在主进程中,可以在需要的地方使用`queue.get()`方法从队列中获取返回值。该方法会阻塞主进程,直到队列中有可获取的返回值。 下面是一个示例代码: ```python import multiprocessing def my_func(queue): result = 10 # 假设计算得到的结果为10 queue.put(result) if __name__ == '__main__': manager = multiprocessing.Manager() queue = manager.Queue() pool = multiprocessing.Pool(processes=4) pool.apply_async(my_func, args=(queue,)) # 在需要的地方获取返回值 result = queue.get() print("结果:", result) ``` 在上述示例中,我们使用了`multiprocessing.Pool()`创建了一个进程池,并使用`pool.apply_async()`提交了可调用对象`my_func`。在`my_func`中,我们将计算得到的结果放入了队列`queue`中。 在主进程中,我们使用`queue.get()`阻塞主进程,并等待队列中的返回值。然后,将返回值打印出来。 这样就实现了通过队列传递返回值的功能。 ### 回答3: 在使用Python中的multiprocessing模块中的pool.apply_async方法时,我们可以通过队列来传递返回值。 pool.apply_async方法可以将函数异步地提交给进程池进行处理,并返回一个AsyncResult对象,该对象可以用于获取函数的返回值。 为了获取函数的返回值,我们可以创建一个队列,并将其作为参数传递给pool.apply_async方法。具体操作如下: 1. 导入multiprocessing模块中的Pool和Queue类: ``` from multiprocessing import Pool, Queue ``` 2. 创建一个队列对象: ``` result_queue = Queue() ``` 3. 定义一个函数,该函数将需要处理的任务作为参数,并使用队列将返回值传递出去: ``` def process_task(task): # 执行任务处理操作 # ... # 将返回值放入队列中 result_queue.put(result) ``` 4. 创建进程池对象: ``` pool = Pool() ``` 5. 提交任务给进程池进行处理,并获取AsyncResult对象: ``` async_result = pool.apply_async(process_task, (task,)) ``` 6. 从队列中获取函数的返回值: ``` result = result_queue.get() ``` 在上述代码中,我们首先创建了一个队列对象result_queue。然后,定义了一个处理任务的函数process_task,并将返回值放入队列中。接下来,创建了一个进程池对象pool,并使用apply_async方法提交任务给进程池。最后,从队列中获取函数的返回值result。 通过使用队列传递返回值,我们可以在多进程处理的情况下,方便地获取函数的结果并进行后续操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值