用pandas读取大文件

最新推荐文章于 2024-06-16 22:13:43 发布

hydromonkey

最新推荐文章于 2024-06-16 22:13:43 发布

阅读量1.1w

点赞数 8

本文链接：https://blog.csdn.net/hengcall/article/details/80382853

版权

当遇到上GB的大CSV文件时，直接用pandas.read_csv可能会导致MemoryError。通过设置read_csv的chunksize参数，可以分块读取并处理文件。这允许在内存限制下进行数据清洗。示例代码展示了如何以迭代器方式读取大文件的前几行，以便初步了解数据。

摘要由CSDN通过智能技术生成

读取上GB大文件的方式有很多，但是并不是都有像pandas这样强大的数据清洗功能。数据太大是，可以分块处理，及时手动删除内存，最后在合并数据。

今天在读取一个超大csv文件的时候，遇到困难：

首先使用office打不开

然后在python中使用基本的pandas.read_csv打开文件时：MemoryError

最后查阅read_csv文档发现可以分块读取。

read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader，IO Tools 举例如下：

In [138]: reader = pd.read_table('tmp.sv', sep='|', chunksize=4)

In [139]: reader
Out[139]: <pandas.io.parsers.TextFileReader at 0x120d2f290>

In [140]: for chunk in reader:
   .....:     print(chunk)
   .....: 
   Unnamed: 0         0         1         2

最低0.47元/天解锁文章

hydromonkey

关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
用pandas读取大文件

读取上GB大文件的方式有很多，但是并不是都有像pandas这样强大的数据清洗功能。数据太大是，可以分块处理，及时手动删除内存，最后在合并数据。今天在读取一个超大csv文件的时候，遇到困难：首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时：MemoryError 最后查阅read_csv文档发现可以分块读取。read_csv...
复制链接

扫一扫