在利用Python进行系统管理的时候,特别是同时操作多个文件目录,或者远程控制多台主机,并行操作可以节约大量的时间。多进程是实现并发的手段之一,需要注意的问题是:
- 很明显需要并发执行的任务通常要远大于核数
- 一个操作系统不可能无限开启进程,通常有几个核就开几个进程
- 进程开启过多,效率反而会下降(开启进程是需要占用系统资源的,而且开启多余核数目的进程也无法做到并行)
例如当被操作对象数目不大时,可以直接利用multiprocessing中的Process动态成生多个进程,十几个还好,但如果是上百个,上千个。。。手动的去限制进程数量却又太过繁琐,此时可以发挥进程池的功效。
我们就可以通过维护一个进程池来控制进程数目,比如httpd的进程模式,规定最小进程数和最大进程数…
ps:对于远程过程调用的高级应用程序而言,应该使用进程池,Pool可以提供指定数量的进程,供用户调用,当有新的请求提交到pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到规定最大值,那么该请求就会等待,直到池中有进程结束,就重用进程池中的进程。
创建进程池可以通过multiprocessing模块的Pool类,也可以通过Python的并发库concurrent.futures的ProcessPoolExecutor类来创建。
- 利用multiprocessing模块实现进程池
Pool类概述
Pool类创建进程池的方法# 这里只列举一些常用方法 class Pool(object): ''' numprocess:要创建的进程数,如果省略,将默认使用cpu_count()的值; nitializer:是每个工作进程启动时要执行的可调用对象,默认为None; initargs:是要传给initializer的参数组。 ''' def __init__(self, processes=None, initializer=None, initargs=(), maxtasksperchild=None, context=None): pass def apply(self, func, args=(), kwds={}): ''' 向进程池中添加一个同步的进程,进程执行func(*args,**kwargs),然后返回结果。 注意:用apply()方法向进程池中添加的进程是串行的, 即只有拿到这个进程的返回值(即func的返回值)才会继续执行下一个进程。 ''' pass def apply_async(self, func, args=(), kwds={}, callback=None, error_callback=None): ''' 向进程池中在添加一个异步的进程,进程执行func(*args,**kwargs),然后返回结果。 此方法返回的结果是AsyncResult类的实例,callback是可调用对象,可以有参数。 当func产生返回值时,将返回值传递给callback(callback即是回调函数), callback禁止执行任何阻塞操作,否则将接收其他异步操作中的结果。 ''' pass def close(self): ''' 关闭进程池,防止进一步操作。如果所有操作持续挂起,它们将在工作进程终止前完成。 ''' pass def terminate(self): ''' 立即终止所有工作进程,同时不执行任何清理或结束任何挂起工作。 如果进程池被垃圾回收,将自动调用此函数。 ''' pass def join(self): '''等待所有工作进程退出,此方法只能在close()或teminate()之后调用''' pass
from multiprocessing import Process,Pool import time,os def Foo(i): time.sleep(1) print(i) print("son",os.getpid()) return "HELLO %s"%i # 回调函数 在主进程里面 def Bar(arg): print(arg) # print("hello") # print("Bar:",os.getpid()) if __name__ == '__main__': # 进程池中从无到有创建5个进程,以后一直是这5个进程在循环执行任务 pool = Pool(5) print("main pid",os.getpid()) for i in range(100): # 创建100个进程 #pool.apply(func=Foo, args=(i,)) #同步接口 #pool.apply_async(func=Foo, args=(i,)) #异步接口,异步运行,同时五个进程 pool.apply_async(func=Foo, args=(i,),callback=Bar) #回调函数: 就是某个动作或者函数执行成功后再去执行的函数 #定义的回调函数中的参数,为func=Foo 的返回值 # 关闭进程池,防止进一步操作。如果所有操作持续挂起,它们将在工作进程终止前完成。 pool.close() # 调用join之前,先调用close函数,否则会出错。 # 执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。 # 不join的话,还没等子进程执行,主进程就结束了。 pool.join() # join与close调用顺序是固定的 print('end')
回掉函数:
需要回调函数的场景:进程池中任何一个任务一旦处理完了,就立即告知主进程:我好了额,你可以处理我的结果了。主进程则调用一个函数去处理该结果,该函数即回调函数
我们可以把耗时间(阻塞)的任务放到进程池中,然后指定回调函数(主进程负责执行),这样主进程在执行回调函数时就省去了I/O的过程,直接拿到的是任务的结果。