在Windows上使用modin

前言

Windows 上安装使用 modin 时有一些坎坷,特此记录。

Modin 是加州大学伯克利分校 RISELab 的一个早期项目,旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。

在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。

该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas

modin在Windows上的安装步骤:

① pip install modin

② pip install modin[dask]

③ pip install py

④ pip install pyarrow

Windows 环境下,Ray 是安装 Modin 所需的依赖之一。Windows 本身并不支持 Ray,所以为了安装它,用户需要使用 WSL(适用 LinuxWindows 子系统)。在这里我们安装使用的是 dask

然后即可使用modin模块的pandas为所欲为了:

import modin.pandas as pd

但是目前只是发现read_csv的效率提高了点,其它的API的效率好像没有提升反而降低了:

import pandas as pd2  

先测试读取 660MBcsv 文件:
111
可以发现 modinpandas 的提升是显著的。

再测试读取 1.2GBfeather 文件:
222
可以发现 modin 的效率不升反降。

接下来我们使用apply函数做一下数据的运算,然后对比一下:
333
由此可见,modin 的提升也是显著的。

至于其它的 pandas API 是否有没有提升本人没有全部测试,有需要的同学可以自己下去测试一下,或者去官方文档查看对应的使用说明:

http://modin.readthedocs.io

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值