multiprocessing.Pool中initializer的利用

multiprocessing.Pool在初始化一个pool对象时,可以传initializer和initargs两个参数,在task开始进行运行前,进行一些初始化的工作。

p = Pool(processes=3, initializer=init_func, initargs=('test',))

initializer()在进程的woker方法中间被调用的,这里如果仅仅透传一些变量过去,initializer函数执行完之后,变量并不能被task执行时利用。

def worker(...):
    ...
    if initializer is not None:
        initializer(*args)
    ...
    # do task()

例如,下面这个例子中的conn不能被process_data方法利用。

def get_cursor():
    conn = psycopg2.connect(...).cursor()

def process_data(data):
    # here I'd like to have the cursor so that I can do things with the data

if __name__ == "__main__":
    pool = Pool(initializer=get_cursor, initargs=())
    pool.map(process_data, get_some_data_iterator())

每一个子进程都是父进程的完整拷贝,我们可以使用global让每一个子进程有独立的database connection。

conn = None
def init():
    global conn
    conn = psycopg2.connect(...).cursor()

def task(i):
    # do sth with conn

p = Pool(processes=3, initializer=init)
for i in range(5):
    p.apply_async(func=task, args=(i,))

p.close()
p.join()

这样,数据库连接在子进程创建之后进行初始化,每个子进程都有自己的数据库链接。当其中一个子进程断掉连接的时候,不会影响其他子进程。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: `multiprocessing.pool.Pool` 是 Python多进程编程库 `multiprocessing` 的一个类,用于简化多进程编程的过程。该类提供了一个简单的方法来并行地执行多个任务,它可以通过多个进程(通常是 CPU 核心数量)同时处理任务,从而提高程序的执行效率。 ### 回答2: multiprocessing.pool.PoolPython的一个模块,它提供了一种简单的方式来并行执行多个进程。 Pool类可以用于创建一个进程池,这个进程池可以管理多个工作进程,从而实现并行计算。通过将任务分配给进程池的多个进程来同时执行,可以显著提高程序的执行效率。 当我们需要对某个函数进行大量重复计算或者需要进行大规模的数据处理时,使用Pool类可以将这些任务分配给多个进程来同时执行,从而节省时间。 Pool类的主要方法有map()和apply_async()。map()方法可以将一个可迭代对象的元素按照指定的函数进行计算,并返回计算结果的列表。apply_async()方法可以异步地传递单个任务给进程池的一个进程,并返回一个AsyncResult对象。 使用Pool类时,可以通过设置进程池的大小来控制并行执行的进程数量。一般来说,进程池的大小应该根据计算机的CPU核心数来确定,以达到最佳的计算效果。 需要注意的是,在使用Pool类时,要确保被传递给进程池的函数是可以独立执行的,即不依赖于其他全局变量或状态。此外,如果需要使用共享状态或共享内存,可以使用multiprocessing模块的其他类和方法。 总之,multiprocessing.pool.PoolPython用于并行计算的一个强大工具,能够有效地提高程序的执行效率。通过将多个任务分配给进程池的多个进程来同时执行,可以充分利用计算机资源,减少计算时间,提高工作效率。 ### 回答3: multiprocessing.pool.PoolPython标准库的一个类,用于实现进程池的功能。进程池是一种并发执行任务的方式,它通过预先创建一定数量的子进程,并维护一个任务队列来实现任务的并发执行。 创建一个进程池可以通过Pool类的构造方法来完成,参数通常包括进程池的大小、初始化函数等。进程池创建后,可以使用其提供的方法来向任务队列添加任务,并且进程池会自动安排空闲的子进程来执行任务。任务的执行结果可以通过返回值或回调函数来获取。 进程池的好处是可以充分利用多核CPU的性能,提高程序的执行效率。同时,进程池的使用也可以简化任务的管理和调度,使得代码更加简洁易懂。 然而,进程池也有一些要注意的地方。首先,进程池在创建时需要占用一定的系统资源,特别是如果进程池的大小设置过大,可能会导致系统负载过高。其次,进程池的任务是并发执行的,因此需要注意线程安全的问题,如共享资源的同步与互斥。 总结来说,multiprocessing.pool.Pool是一个方便实现进程池的工具类,可以用于提高并发执行任务的效率。仔细使用该类可以充分发挥多核CPU的潜力,但也需要注意资源占用和线程安全的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值