pandarallel 参数说明

Pandarallel是一个Python库,用于并行运行Pandas中的apply、map和applymap函数,使得代码可以更快地运行。Pandarallel采用了Dask并行框架,可用于本地和远程计算。

Pandarallel的使用非常简单,只需要在需要并行运行的Pandas函数前使用parallel_apply()、parallel_map()或parallel_applymap()即可,例如:df.apply(...) --> df.parallel_apply(...)

以下讲解一下参数:
from pandarallel import pandarallel
pandarallel.initialize()

  • shm_size_mb:Pandarallel共享内存的大小,以MB为单位。如果默认值太小,可以设置较大的一个。默认情况下,它设置为2 GB。 (INT)

  • nb_workers:工人数量。默认情况下,它设置为数字,您的操作系统看到的核心数。 (INT)

  • progress_bar:将其设置为“True”以显示进度条。

  • verbose:详细程度。 > 1显示所有日志 - 1,仅显示 初始化日志 - <1显示无日志(int)

pandarallel.initialize(shm_size_mb=6072, nb_workers=11,progress_bar=False, verbose=0)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pandarallel、multiprocessing和joblib都是Python中用于并行化处理的库,但是它们的实现方式略有不同。 1. pandarallel pandarallel是一个用于pandas数据框的库,它可以在数据框的每一行上执行函数,从而实现并行化处理。 优点:pandarallel非常易于使用,只需要在代码中添加一行代码即可实现并行化处理。 缺点:pandarallel只能用于pandas数据框,如果需要并行化处理其他的数据类型,则需要使用其他的库。 2. multiprocessing multiprocessing是Python的一个标准库,它提供了一个Process类,可以用于创建进程,并且还提供了一些与进程相关的方法和函数。 优点:multiprocessing是Python的一个标准库,使用起来比较方便,而且可以用于并行化处理各种类型的数据。 缺点:multiprocessing的使用需要一定的Python编程经验和技能,对于新手来说可能不够友好。 3. joblib joblib是一个用于并行化处理的库,它可以用于并行化处理Python函数和类的方法。 优点:joblib使用简单,可以用于并行化处理各种类型的数据,而且性能比较好。 缺点:joblib的并行化处理需要使用多个进程,因此在使用时需要考虑内存的使用情况。 综上所述,pandarallel、multiprocessing和joblib都是用于并行化处理的库,选择哪一个库应该根据具体的需求来决定。如果需要处理pandas数据框,则可以使用pandarallel;如果需要并行化处理Python函数和类的方法,则可以使用joblib;如果需要并行化处理各种类型的数据,则可以使用multiprocessing。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值