python--线程池与进程池

简介

参考文档: https://python-parallel-programmning-cookbook.readthedocs.io/zh_CN/latest/chapter4/01_Introduction.html

为实现程序并发执行和资源共享,提高程序效率,需要进行多线程以及多进程开发。在具体介绍之前,需要了解GIL.

GIL是实现python解释器(CPython)时引入的一个概念,不是python特性。GIL是全局解释器锁,可以控制同一时刻只有一个线程能够运行,这样在跑多线程的情况下,只有当线程获取到全局解释器锁后才能运行,而全局解释器锁只有一个,因此即使在多核的情况下也只能发挥出单核的功能。另外在做IO操作时,GIL总是被释放。因此,IO密集型的python比计算密集型的程序更能利用多线程环境带来的便利。这对我们的程序究竟是选择多线程还是多进程大有帮助。

总而言之,使用进程池来执行CPU密集型的任务,这样可以利用到多核的好处;使用线程池来处理IO型任务,根据实际情况来调整池的大小(线程过多时,切换线程的开销将会严重影响性能)。

concurrent.futures模块

具有线程池和进程池、管理和并行编程任务。

由以下部分组成:

concurrent.futures.Executor: 这是一个虚拟基类,提供了异步执行的方法。

submit(function, argument): 调度函数(可调用的对象)的执行,将 argument 作为参数传入。

map(function, argument): 将 argument 作为参数执行函数,以 异步 的方式。

shutdown(Wait=True): 发出让执行者释放所有资源的信号。

concurrent.futures.Future: 其中包括函数的异步执行。Future对象是submit任务(即带有参数的functions)到executor的实例。

Executor是抽象类,可以通过子类访问,即线程或进程的 ExecutorPools 。因为,线程或进程的实例是依赖于资源的任务,所以最好以“池”的形式将他们组织在一起,作为可以重用的launcher或executor。

两种Executor子类

concurrent.futures.ThreadPoolExecutor(max_workers)

concurrent.futures.ProcessPoolExecutor(max_workers) 

#max_workers表示最多有个worker并行执行

实现

基本使用

# 线程池执行
start_time_1 = time.time()
with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        futures = executor.submit(func, argument)

# 进程池
start_time_2 = time.time()
with concurrent.futures.ProcessPoolExecutor(max_workers=5) as executor:
        futures = executor.submit(func, argument) 
      

ProcessPoolExecutor使用一个线程池来并行执行任务,但是和ThreadPoolExecutor 不同的是ProcessPoolExecutor使用多核处理的模块,不受GIL限制,可以大大缩短执行时间

注意事项

若是要将多行pandas DataFrame用于并行的话,需要注意

import concurrent.futures
import pandas as pd
def foo(item1,item2):
    return 'true'

with concurrent.futures.ProcessPoolExecutor(16) as pool:
    df = pd.read_csv("filepath", sep='\t', header=None)
    df['status'] = list(pool.map(foo, df['col1'], df['col2'], chunksize=1_000))

pool.map()第一个参数是函数,第二个参数是迭代器,会将迭代器的数据作为参数依次传入函数中,从而使数据可以并行操作,而不可以将DataFrame作为一个整体作为要并行执行的函数参数

chunksize=1_000可以使每个process每次运行1000行

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
Python中的进程线程池是用来进行并发处理任务的工具。进程是在一个子中放入固定数量的进程,当有任务到达时,就从子中拿一个进程来处理任务,处理完毕后再放回子中等待任务。进程的数量是固定的,因此同一时间最多有固定数量的进程在运行。这样可以避免增加操作系统的调度难度,并节省开闭进程的时间,实现并发效果。 在Python中,可以使用`concurrent.futures`模块中的`ProcessPoolExecutor`类来创建进程。通过实例化`ProcessPoolExecutor`类,可以获得一个指定大小的进程。例如,可以使用以下代码实例化一个进程并指定大小为整数`n`: ``` from concurrent.futures import ProcessPoolExecutor pool = ProcessPoolExecutor(n) ``` 其中`n`是进程的大小,即进程的数量。 线程池进程的原理类似,不同之处在于线程池是在一个子中放入固定数量的线程来处理任务。线程池的使用方式也类似,可以使用`concurrent.futures`模块中的`ThreadPoolExecutor`类来创建线程池,并指定大小。线程池的使用和进程类似,都是从子中获取线程或进程来处理任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python--进程线程池](https://blog.csdn.net/weixin_43988680/article/details/124284555)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晏九

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值