pandas提速之swifter

june_francis

已于 2022-09-07 16:52:43 修改

阅读量2.1k

点赞数 1

分类专栏： python库 python 文章标签： pandas python 数据分析

于 2022-09-07 16:50:23 首次发布

本文链接：https://blog.csdn.net/june_young_fan/article/details/126747562

版权

python 同时被 2 个专栏收录

78 篇文章

订阅专栏

python库

24 篇文章

订阅专栏

前言

相信大家使用完pandas一段时间之后，多多少少会去寻找使得当下数据处理过程效率更高的方式或者方法，那么在大规模的数据之间完成一些操作，我们往往会浪费大量的时间，为了充分的利用软硬件资源，演化出了2种主流的优化方式，分别是 向量化 和 并行化 。今天要给大家介绍的一款工具 swifter 就是综合使用了这2中方式。

swifter 简介

swifter 是一款用于给使用在 pandas DataFrame 或者 Series 上的 function 进行加速的包。
使用的话也很方便，直接命令行安装即可：

pip install swifter

然后在使用前导入：

import pandas as pd
import swifter

如果在导入swifter之前你先导入了modin，而且想在modin上使用swifter，那么你需要进行注册：

import modin.pandas as pd
import swifter
swifter.register_modin()

swifter的简单使用：

df = pd.DataFrame({'x': [1, 2, 3, 4], 'y': [5, 6, 7, 8]})

# runs on single core
df['x2'] = df['x'].apply(lambda x: x**2)
# runs on multiple cores
df['x2'] = df['x'].swifter.apply(lambda x: x**2)

# use swifter apply on whole dataframe
df['agg'] = df.swifter.apply(lambda x: x.sum() - x.min())

# use swifter apply on specific columns
df['outCol'] = df[['inCol1', 'inCol2']].swifter.apply(my_func)
df['outCol'] = df[['inCol1', 'inCol2', 'inCol3']].swifter.apply(my_func,
             positional_arg, keyword_arg=keyword_argval)

那么 swifter 具体是如何做到高效率的呢？

1、它会判断apply中的函数是否能被向量化（vectorization），如果可以，那么他就会自动选择向量化后函数的进行应用（此时是效果最好的），下图是向量化后不同操作随着处理的数据集规模的增加时的效率对比：
111
2、如果apply的函数无法向量化，则自动选择使用 dask parallel processing 和 simple pandas apply 中较快的一种，下图是在不向量化的前提下各操作方法随着数据集规模的增加时的效率：
222
3、在分组apply的场景下，swifter也能达到更好的效果：
333