Python的多进程操作
很多时候,我们需要处理大量的数据。当数据量很小时,一般用一个脚本进行单进程操作时间也不会太久,但是当数据量达到一定程度时,就需要开启多个进程,并行的执行任务,节省大量时间。
直接看代码吧
from multiprocessing import Pool
#定义执行函数
def func(data):
#一些对数据处理的操作
process(data)
#创建一个进程池,这里的参数代表进程池里可以同时执行10个线程
pool = Pool(10)
for data in data_list:
pool.apply_async(func,(data, ))
pool.close()
pool.join()
这样就会开启很多进程,用top指令可以看到10个新开启的python在后台运行。
但是,我们需要多进程处理数据,然后获得处理结果,多进程的结果只是一个python脚本的中间过程。那么就需要用到pool.map()这个方法了。
from multiprocessing import Pool
#定义执行函数
def func(data):
#一些对数据处理的操作
res = process(data)
return res
#创建一个进程池,这里的参数代表线程池里可以同时执行10个线程
pool = Pool(10)
results = pool.map(func, data_list)