panda dataframe多线程任务处理

最新推荐文章于 2024-04-20 12:31:31 发布

流浪德意志

最新推荐文章于 2024-04-20 12:31:31 发布

阅读量1.2k

点赞数

分类专栏：数据处理 Python 文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/li4692625/article/details/126921339

版权

Python 同时被 2 个专栏收录

37 篇文章 1 订阅

订阅专栏

数据处理

5 篇文章 0 订阅

订阅专栏

这里的例子将开始日期和结束日期之前展开

线程数=cpu数量速度提高n呗

#multi threads
from functools import partial
from multiprocessing import Pool
import multiprocessing
import numpy as np
from tqdm import tqdm
tqdm.pandas(desc='pandas bar')
def parallelize_dataframe(df, func, **kwargs):
    CPUs = multiprocessing.cpu_count()
    num_partitions = CPUs # number of partitions to split dataframe
    num_cores = CPUs  # number of cores on your machine

    df_split = np.array_split(df, num_partitions,axis=0)
    pool = Pool(num_cores)
    func = partial(func, **kwargs)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df
start_date = pd.to_datetime('20200101',format='%Y%m%d')
def process_func(row):
    start=datetime.strptime(str(row['start_date']),'%Y%m%d')
    end=datetime.strptime(str(row['end_date']),'%Y%m%d')
    row['date']=[(start + timedelta(days=i)).strftime('%Y%m%d') for i in range((end - start).days + 1)]
    return row                               
def parall_func(df):
    df = df.progress_apply(process_func,axis=1)
    return df

# 然后把上一步定义好的这个 parall_func 和 数据集，一起放入 parallelize_dataframe
activity_info_pd = parallelize_dataframe(activity_info_pd, parall_func)
activity_info_pd=activity_info_pd.explode('date')