独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

最新推荐文章于 2024-05-31 09:44:10 发布

数据派THU

最新推荐文章于 2024-05-31 09:44:10 发布

阅读量614

点赞数

文章标签： python java 人工智能大数据机器学习

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/127594311

版权

本文探讨了Pandas的CSV读写操作效率问题，并对比了Dask和DataTable在读取和保存CSV时的性能。实验结果显示，当行数超过100万时，Dask的性能下降，而DataTable在生成和保存Pandas DataFrame方面提供了4到5倍的加速，成为最佳选择。建议在必须使用CSV时，考虑使用DataTable进行优化。

摘要由CSDN通过智能技术生成

作者：Avi Chawla
翻译：欧阳锦
校对：和中华


本文约1100字，建议阅读5分钟
本文将带你探索Dask和DataTable，这两个类 Pandas 库。

Pandas 对 CSV 的输入输出操作是串行化的，这使得它们非常低效且耗时。我在这里看到足够的并行优化空间，但遗憾的是，Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV（请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f了解原因），但我知道在某些情况下，除了使用 CSV 之外别无选择。

因此，在这篇文章中，我们将探索Dask和DataTable，这两个最受数据科学家欢迎的类 Pandas 库。我们将根据 Pandas、Dask 和 Datatable 在以下参数上的表现对它们进行排名：

1. 读取 CSV 并获取 PANDAS DATAFRAME 所需的时间

如果我们通过 Dask 和 DataTable 读取 CSV，它们将分别生成 Dask DataFrame 和 DataTable DataFrame，而不是 Pandas DataFrame。假设我们想坚持传统的 Pandas 语法和函数（由于熟悉），我们必须首先将它们转换为 Pandas DataFrame，如下所示。