pool python 传参数_Python中的多进程Multiprocessing模块详解

最新推荐文章于 2022-09-15 14:22:03 发布

LHZ5388015210

最新推荐文章于 2022-09-15 14:22:03 发布

阅读量742

点赞数 1

文章标签： pool python 传参数

本文链接：https://blog.csdn.net/weixin_39775354/article/details/112499747

版权

本文详细介绍了Python中的多进程Multiprocessing模块，包括Process类和Pool类的使用方法，以及如何通过Pool配合Map函数实现异步进程池，强调了在获取子进程返回值时的正确和错误做法，并提供了不同场景下的高级用法示例。

摘要由CSDN通过智能技术生成

目的

在Python开发中流传着这样一句话：人生苦短，我用Python。这句话出自Bruce Eckel，原文是：Life is short，you need Python。使用过Python语言的程序员,或从其他的语言(比如Java，php等)转换到Python开发的Coder, 对这句话的理解更加深刻。开发方便，高效明了，语言健全等等优点是这句话的最好诠释。伴随着大数据和人工智能的高速发展，python对这方面的优势尤其明显。既然人生苦短，那么高效准确稳定的执行就显得格外重要，既然如此，那多进程操作一定要研究下。下面结合案例，一点点让你看到多进程的庐山真面目。

Python多进程

Multiprocessing模块

python多进程主要是通过multiprocessing模块来实现的，而在使用时用到各种方法，下面就常用类的进行详细介绍。

Multiprocessing

Process类

Multiprocessing Process

构造方法：

Process([group [, target [, name [, args [, kwargs]]]]])其中：

group: 线程组，目前还没有实现，库引用中提示必须是None；
target: 要执行的方法；
name: 进程名；
args/kwargs: 要传入方法的参数。

实例方法:

is_alive()：返回进程是否在运行。

join([timeout])：阻塞当前上下文环境的进程程，直到调用此方法的进程终止或到达指定的3. timeout(可选参数)。

start()：进程准备就绪，等待CPU调度。

run()：strat()调用run方法，如果实例进程时未制定传入target，这star执行t默认run()方法。

terminate()：不管任务是否完成，立即停止工作进程。

实例代码

# -*- coding:utf-8 -*-from multiprocessing import Processimport osimport time  def run_proc(name):    time.sleep(10)    print('Run child process %s (%s)...' % (name, os.getpid()))  def hello_world():    # time.sleep(5)    time.sleep(20)    print('hello world!')    print('Run child process (%s)...' % (os.getpid()))  if __name__ == '__main__':    print ('Parent process %s.' % os.getpid())    p1 = Process(target=run_proc, args=('test',))    p2 = Process(target=hello_world)    print 'Process will start.'    p1.start()    p2.start()    p1.join()    print('Process end.')

Pool类

如果目标少且不用控制进程数量则可以用Process方法，但如果需要指定数量的进程供用户调用，那么就要用Pool方法了。根据字面意思就可以理解了进程池，Pool类用于需要执行的目标很多，而手动限制进程数量又太繁琐时情况。当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新的进程用来执行该请求；但如果池中的进程数已经达到规定最大值，那么该请求就会等待，直到池中有进程结束，才会创建新的进程来执行它。在共享资源时，只能使用Multiprocessing.Manager类，而不能使用Queue或者Array。

Multiprocessing Pool

构造方法：

Pool([processes[, initializer[, initargs[, maxtasksperchild[, context]]]]])，其中：

processes ：使用的工作进程的数量，如果processes是None那么使用 os.cpu_count()返回的数量。
initializer：如果initializer是None，那么每一个工作进程在开始的时候会调用initializer(*initargs)。
maxtasksperchild：工作进程退出之前可以完成的任务数，完成后用一个新的工作进程来替代原进程，来让闲置的资源被释放。maxtasksperchild默认是None，意味着只要Pool存在工作进程就会一直存活。
context: 用在制定工作进程启动时的上下文，一般使用 multiprocessing.Pool() 或者一个context对象的Pool()方法来创建一个池，两种方法都适当的设置了context。

实例方法：

apply_async(func[, args[, kwds[, callback]]]) 它是非阻塞。

apply(func[, args[, kwds]])是阻塞的

close() 关闭pool，使其不在接受新的任务。

terminate() 关闭pool，结束工作进程，不在处理未完成的任务。

join() 主进程阻塞，等待子进程的退出， join方法要在close或terminate之后使用。

Pool使用方法

Pool+Map函数

此法的缺点：在于只能通过map向函数来传递一个参数。

from multiprocessing import Pooldef test(i):    print i    if __name__=="__main__":    lists=[1,2,3]    pool=Pool(processes=2) #定义最大的进程数    pool.map(test,lists)        #p必须是一个可迭代变量。    pool.close()    pool.join()

异步进程池(非阻塞)

from multiprocessing import Pooldef test(i):    print i    if __name__=="__main__":    pool = Pool(processes=10)    for i  in xrange(500):        '''        For循环中执行步骤：        (1)循环遍历，将500个子进程添加到进程池(相对父进程会阻塞)        (2)每次执行10个子进程，等一个子进程执行完后，立马启动新的子进程。(相对父进程不阻塞)        apply_async为异步进程池写法。        异步指的是启动子进程的过程，与父进程本身的执行(print)是异步的，而For循环中往进程池添加子进程的过程，与父进程本身的执行却是同步的。        '''        pool.apply_async(test, args=(i,)) #维持执行的进程总数为10，当一个进程执行完后启动一个新进程.           print “test”    pool.close()    pool.join()

执行说明：

For循环内执行了2个步骤，第一步：将500个对象放入进程池(阻塞)。第二步：同时执行10个子进程(非阻塞)，有结束的就立即添加，维持10个子进程运行。(apply_async方法的会在执行完for循环的添加步骤后，直接执行后面的print语句，而apply方法会等所有进程池中的子进程运行完以后再执行后面的print语句)

注意：调用join之前，先调用close或者terminate方法，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。

同步进程池(阻塞)

from multiprocessing import Pooldef test(p):       print p       time.sleep(3)if __name__=="__main__":    pool = Pool(processes=10)    for i  in xrange(500):    '''    实际测试发现，for循环内部执行步骤：    (1)遍历500个可迭代对象，往进程池放一个子进程    (2)执行这个子进程，等子进程执行完毕，再往进程池放一个子进程，再执行。(同时只执行一个子进程)    for循环执行完毕，再执行print函数。    '''        pool.apply(test, args=(i,))   #维持执行的进程总数为10，当一个进程执行完后启动一个新进程.    print “test”    pool.close()    pool.join()

说明：for循环内执行的步骤顺序，往进程池中添加一个子进程，执行子进程，等待执行完毕再添加一个子进程…..等500个子进程都执行完了，再执行print “test”。(从结果来看，并没有多进程并发)

子进程返回值

在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。=下面我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。

初级用法(Pool)

目的：存储子进程返回值

说明：如果只是单纯的存储子进程返回值，则可以使用Pool的apply_async异步进程池；当然也可以使用Process，用法与threading中的相同，这里只介绍前者。

实例：当进程池中所有子进程执行完毕后，输出每个子进程的返回值。

from multiprocessing import Pooldef test(p):         return pif __name__=="__main__":    pool = Pool(processes=10)    result=[]    for i  in xrange(50000):       '''       for循环执行流程：       (1)添加子进程到pool，并将这个对象(子进程)添加到result这个列表中。(此时子进程并没有运行)       (2)执行子进程(同时执行10个)       '''       result.append(pool.apply_async(test, args=(i,)))#维持执行的进程总数为10，当一个进程执行完后添加新进程.           pool.join()    '''    遍历result列表，取出子进程对象，访问get()方法，获取返回值。(此时所有子进程已执行完毕)    '''    for i in result:        print i.get()

错误写法：

for i  in xrange(50000):   t=pool.apply_async(test, args=(i,)))   print t.get()

说明：这样会造成阻塞，因为get()方法只能等子进程运行完毕后才能调用成功，否则会一直阻塞等待。如果写在for循环内容，相当于变成了同步，执行效率将会非常低。

高级用法(Pool)

目的：父进程实时获取子进程返回值，以此为标记结束所有进程。

实例一

执行子进程的过程中，不断获取返回值并校验，如果返回值为True则结果所有进程。

from multiprocessing import Poolimport Queueimport timedef test(p):    time.sleep(0.001)    if p==10000:        return True    else:        return Falseif __name__=="__main__":    pool = Pool(processes=10)    q=Queue.Queue()    for i  in xrange(50000):        '''        将子进程对象存入队列中。        '''        q.put(pool.apply_async(test, args=(i,)))#维持执行的进程总数为10，当一个进程执行完后添加新进程.           '''    因为这里使用的为pool.apply_async异步方法，因此子进程执行的过程中，父进程会执行while，获取返回值并校验。    '''    while 1:        if q.get().get():            pool.terminate() #结束进程池中的所有子进程。            break    pool.join()

说明：总共要执行50000个子进程(并发数量为10)，当其中一个子进程返回True时，结束进程池。因为使用了apply_async为异步进程，因此在执行完for循环的添加子进程操作后(只是添加并没有执行完所有的子进程)，可以直接执行while代码，实时判断子进程返回值是否有True，有的话结束所有进程。

优点：不必等到所有子进程结束再结束程序，只要得到想要的结果就可以提前结束，节省资源。

不足：当需要执行的子进程非常大时，不适用，因为for循环在添加子进程时，要花费很长的时间，虽然是异步，但是也需要等待for循环添加子进程操作结束才能执行while代码，因此会比较慢。

实例二

使用多线程+多进程的方式，添加了在执行子进程的过程中，不断获取返回值并校验，如果返回值为True则结果所有进程。

from multiprocessing import Poolimport Queueimport threadingimport timedef test(p):    time.sleep(0.001)    if p==10000:        return True    else:        return Falseif __name__=="__main__":    result=Queue.Queue() #队列    pool = Pool()    def pool_th():        for i  in xrange(50000000): ##这里需要创建执行的子进程非常多            try:                result.put(pool.apply_async(test, args=(i,)))            except:                break    def result_th():        while 1:            a=result.get().get() #获取子进程返回值            if a:                pool.terminate() #结束所有子进程                break    '''    利用多线程，同时运行Pool函数创建执行子进程，以及运行获取子进程返回值函数。    '''    t1=threading.Thread(target=pool_th)    t2=threading.Thread(target=result_th)    t1.start()    t2.start()    t1.join()    t2.join()    pool.join()

执行流程：利用多线程，创建一个执行pool_th函数线程，一个执行result_th函数线程，pool_th函数用来添加进程池，开启进程执行功能函数并将子进程对象存入队列，而result_th()函数用来不停地从队列中取子进程对象，调用get()方法获取返回值。等发现其中存在子进程的返回值为True时，结束所有进程，最后结束线程。

优点：弥补了实例(一)的不足，即使for循环的子进程数量很多，也能提高性能，因为for循环与判断子进程返回值同时进行。