独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

本文探讨了Pandas的CSV读写操作效率问题,并对比了Dask和DataTable在读取和保存CSV时的性能。实验结果显示,当行数超过100万时,Dask的性能下降,而DataTable在生成和保存Pandas DataFrame方面提供了4到5倍的加速,成为最佳选择。建议在必须使用CSV时,考虑使用DataTable进行优化。
摘要由CSDN通过智能技术生成

0560dc5f86e13e6a853c2cecd39fae01.png

作者:Avi Chawla
翻译:欧阳锦
校对:和中华


本文约1100字,建议阅读5分钟
本文将带你探索Dask和DataTable,这两个类 Pandas 库。

3915b7d2177faebdcaa5fa8d865c3aaa.png

Pandas 对 CSV 的输入输出操作是串行化的,这使得它们非常低效且耗时。我在这里看到足够的并行优化空间,但遗憾的是,Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV(请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f了解原因),但我知道在某些情况下,除了使用 CSV 之外别无选择。

因此,在这篇文章中,我们将探索Dask和DataTable,这两个最受数据科学家欢迎的类 Pandas 库。我们将根据 Pandas、Dask 和 Datatable 在以下参数上的表现对它们进行排名:

1. 读取 CSV 并获取 PANDAS DATAFRAME 所需的时间

如果我们通过 Dask 和 DataTable 读取 CSV,它们将分别生成 Dask DataFrame 和 DataTable DataFrame,而不是 Pandas DataFrame。假设我们想坚持传统的 Pandas 语法和函数(由于熟悉),我们必须首先将它们转换为 Pandas DataFrame,如下所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值