利用multiprocessing对pandas的apply并行加速，非groupby操作

最新推荐文章于 2024-10-22 16:07:39 发布

roamer314

最新推荐文章于 2024-10-22 16:07:39 发布

阅读量2.9k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/roamer314/article/details/108558216

版权

Python 专栏收录该内容

64 篇文章

订阅专栏

import pandas as pd
from multiprocessing import  Pool
from functools import partial

def dosomething(row):
     #添加计算操作
         
    return 

def parallelize(data, func, num_of_processes=8):
    data_split = np.array_split(data, num_of_processes)
    pool = Pool(num_of_processes)
    data = pd.concat(pool.map(func, data_split))
    pool.close()
    pool.join()
    return data

def run_on_subset(func, data_subset):
    return data_subset.apply(func, axis=1)

def parallelize_on_rows(data, func, num_of_processes=8):
    return parallelize(data, partial(run_on_subset, func), num_of_processes)

if __name__ == '__main__': #不要忘了这句话，否则运行.py文件时，无法启动multiprocessing 
    data['newcol']=parallelize_on_rows(data, dosomething)

利用原生multiprocessing对pandas的apply并行加速，不需要安装dask、swifter等