我知道你提到Pool.map方法对你来说没什么意义。映射只是一种简单的方法,可以为它提供一个工作源,并可以调用以应用于每个项。映射的func可以是对给定参数执行实际操作的任何入口点。
实际上,您创建一个队列,并启动N个工作进程。然后,您要么从主线程馈送队列,要么创建馈送队列的生产者进程。工人只是不停地从队列中取出工作,并且不会有比您启动的进程数更多的并发工作发生。
如果还需要限制生产商消耗的速度和资源,还可以选择对队列设置限制,以便在已经有太多未完成的工作时阻止生产商。
调用的工作函数可以做任何您想要的事情。这可以是某个系统命令的包装器,也可以导入python库并运行主例程。有一些特定的流程管理系统可以让您设置配置,以便在有限的资源下运行任意可执行文件,但这只是一种基本的python方法。
基本池:from multiprocessing import Pool
def do_work(val):
# could instantiate some other library class,
# call out to the file system,
# or do something simple right here.
return "FOO: %s" % val
pool = Pool(4)
work = get_work_args()
results = pool.map(do_work, work)
使用流程管理器和生产商from multiprocessing import Process, Manager
import time
import itertools
def do_work(in_queue, out_list):
while True:
item = in_queue.get()
# exit signal
if item == None:
return
# fake work
time.sleep(.5)
result = item
out_list.append(result)
if __name__ == "__main__":
num_workers = 4
manager = Manager()
results = manager.list()
work = manager.Queue(num_workers)
# start for workers
pool = []
for i in xrange(num_workers):
p = Process(target=do_work, args=(work, results))
p.start()
pool.append(p)
# produce data
# this could also be started in a producer process
# instead of blocking
iters = itertools.chain(get_work_args(), (None,)*num_workers)
for item in iters:
work.put(item)
for p in pool:
p.join()
print results