pandas rolling_一行代码加快pandas计算速度

Pandaral·lel是一个库,旨在利用计算机的所有CPU来并行化pandas的数据处理任务,从而显著提高计算速度。通过简单的替换apply为parallel_apply,可以在groupby和rolling操作中实现并行计算,提高效率。在4核硬件上,平均加速约4倍。它使用Pyarrow Plasma共享内存和子进程来分布工作并合并结果。
摘要由CSDN通过智能技术生成

fb6cf4399a71825309998864e37acbbd.gif

作者 | Manu NALEPA

来源 | Towards Data Science

编辑 | 代码医生团队

此GitHub页面上提供了完整的Pandaral·lel存储库和文档。

https://github.com/nalepae/pandarallel

什么问题困扰我们?

使用pandas,当您运行以下行时:

# Standard apply
df.apply(func)

得到这个CPU使用率:

645e686e8376dae898ecb828eae7c839.gif

标准pandas适用 - 仅使用1个CPU

即使计算机有多个CPU,也只有一个完全专用于您的计算。

而不是下边这种CPU使用,想要一个简单的方法来得到这样的东西:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值