python中的CSV大数据读取

最新推荐文章于 2024-07-02 09:00:00 发布

lww1993

最新推荐文章于 2024-07-02 09:00:00 发布

阅读量1.8k

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lww1993/article/details/107014770

版权

Python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

主要有两种方式：

1. pd.read_csv(file, chunksize=chunk_size)这样可以保证分块读取；下面的博客提供了如下的代码

https://blog.csdn.net/qq_36330643/article/details/78739764

def get_df(file, chunk_size=1e5):
mylist = []
for chunk in pd.read_csv(file, chunksize=chunk_size):
mylist.append(chunk)
temp_df = pd.concat(mylist, axis= 0)
del mylist
return temp_df

2. dask包

import dask.dataframe as dd

dd.read_csv(...)

dask包采用的是并行读取，速度会快很多。在个人笔记本上测试了一组

13605401*8的数据，pd.read_csv需要11s, dd.read_csv仅需要22ms.

需要注意的是，安装需要采用pip install 'dask[complete]'的方式，保证dask完整安装。

参考:

https://stackoverflow.com/questions/41453473/default-pip-installation-of-dask-gives-importerror-no-module-named-toolz

https://blog.csdn.net/qq_36330643/article/details/78739764

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。