Pandarallel是一个Python库,用于并行运行Pandas中的apply、map和applymap函数,使得代码可以更快地运行。Pandarallel采用了Dask并行框架,可用于本地和远程计算。
Pandarallel的使用非常简单,只需要在需要并行运行的Pandas函数前使用parallel_apply()、parallel_map()或parallel_applymap()即可,例如:df.apply(...)
--> df.parallel_apply(...)
以下讲解一下参数:
from pandarallel import pandarallel
pandarallel.initialize()
-
shm_size_mb
:Pandarallel共享内存的大小,以MB为单位。如果默认值太小,可以设置较大的一个。默认情况下,它设置为2 GB。 (INT) -
nb_workers
:工人数量。默认情况下,它设置为数字,您的操作系统看到的核心数。 (INT) -
progress_bar
:将其设置为“True”以显示进度条。 -
verbose
:详细程度。 > 1显示所有日志 - 1,仅显示 初始化日志 - <1显示无日志(int)
pandarallel.initialize(shm_size_mb=6072, nb_workers=11,progress_bar=False, verbose=0)