pandas分块读取较大csv的方法

最新推荐文章于 2024-07-31 10:45:00 发布

码破苍穹

最新推荐文章于 2024-07-31 10:45:00 发布

阅读量6.4k

点赞数 2

分类专栏： Python及其库使用相关

本文链接：https://blog.csdn.net/leokingszx/article/details/78534324

版权

Python及其库使用相关专栏收录该内容

68 篇文章 3 订阅

订阅专栏

对于几百MB的CSV文件，可以直接使用pd.read_csv（）进行读取。然而如果csv文件太大，达到几个Gb，这种方法就不可取。

这时应使用chunk，进行分块读取——

如

user= pd.read_csv('data.csv', chunksize= 20000)
count = 0
for df in user:
    count += 1
    print count

    #其他代码

当然，分块读取后需要额外的拼接工作。

2017.11.26 更新：

发现在这种读取方式下，无法对各个chunk进行循环遍历？（user只能遍历一次）

为了解决这个问题，各种改chunksize，试图改变chunk的数量，未果。。

今天才发现，重新读取一下user就行了！！之前真的是2！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

码破苍穹

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

史上最全！用Pandas读取CSV，看这篇就够了

0x8g1T9E-

08-05

2万+

例如，如果comment ='＃'，则解析header=0的'#empty \ na，b，c \ n1,2,3'会将'a，b，c'视为header。如果为某些或所有列启用了parse_dates，并且datetime字符串的格式都相同，则通过设置infer_datetime_format=True，可以大大提高解析速度，pandas将尝试推断datetime字符串的格式，然后使用更快的方法解析字符串，从而将解析速度提高5～10倍。names用来指定列的名称，它是一个类似列表的序列，与数据一一对应。...

pandas分批读取大数据集教程

09-16

主要介绍了pandas分批读取大数据集教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

参与评论您还未登录，请先登录后发表或查看评论

利用Pandas分块读取一个数个G的CSV文件

qq_36110407的博客

08-07

1024

** 利用Pandas读取数个G的文件 ** 数据分析时难免会遇到好几个G的大型数据文件，如果利用传统的with open as file的方式很容易造成卡顿，所以建议使用Pandas库并且分块读取文件，这么做可以不让文件一次性写进到内存中，防止占用大量内存 import pandas as pd df =pd.read_csv('filepath',chunksize=100)#chunksize定义一次读取的块的大小，即一次读取多少行数据 for chunk in df: print(df)

CSV文件太大？教你用最简单的工具分割！

热门推荐

I'm zm

05-11

7万+

今天在读取一个超大csv文件的时候，遇到困难：首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时：MemoryError 最后查阅read_csv文档发现可以分块读取。 read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader，IO

Python实现多进程导入CSV大文件到数据库，pandas分块读取

qq_38723814的博客

03-15

2622

Python实现多进程导入CSV大文件到数据库，pandas分块读取

pandas怎么分块读取大量csv数据

07-23

下面是一个示例代码，展示如何使用`chunksize`参数来分块读取CSV数据： ```python import pandas as pd chunksize = 100000 # 每次读取10万行数据 filename = 'your_csv_file.csv' # 替换为你的CSV文件路径 # ...

pandas分块读取csv文件

05-16

下面是一个分块读取CSV文件的示例： ``` python import pandas as pd chunk_size = 1000 # 每次读取的行数 csv_file = 'data.csv' # 通过循环逐块读取数据 for chunk in pd.read_csv(csv_file, chunksize=chunk_...

pandas 读取较大csv文件

08-25

- *1* *3* [数据处理：1 用pandas处理大型csv文件 2 使用Pandas分块处理大文件 3 分块读取](https://blog.csdn.net/wld914674505/article/details/81431128)[target="_blank" data-report-click={"spm":"1018.2226....

python read_csv 分块多线程读_pandas.read_csv——分块读取大文件

weixin_35332816的博客

03-01

1643

read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader，IO Tools举例如下：In [138]: reader = pd.read_table('tmp.sv', sep='|', chunksize=4)In [139]: readerOut[139]: In [140]: for chunk in...

对于上亿数据使用python进行分块处理

08-21

将自己想要处理的文档的名字直接粘贴到代码中，点击运行即可出现分块处理结果。

pandas分批读取CSV并分批处理数据

三妹的博客

05-22

2559

算法工程师要面对的一大主要矛盾：不够用的服务器内存和巨大的训练集数据量之间的矛盾。如果使用pandas处理CSV数据，会先把整个CSV加载到内存之后再处理，所以如果你的CSV文件巨大（其实也不一定非常大，我的数据集只有4、50个G，可惜当时服务器内存只有60多个G了），就要想其他方法了。我之前都是把CSV文件手动切分成10个小文件，再逐个处理。现在觉着这方法太傻了啊。其实pandas 读取CSV文件的函数 read_csv() 中自带两个参数就可以解决： nrows= skiprows=

pandas读取csv文件

moshiyaofei的博客

03-21

1799

1.导入pandas包 import pandas 2.准备数据：.csv数据，我用excel打开： 3.使用pandas读取： data=pandas.read_csv( csv_path ) 4.直接print， print data 看结果：结果中包含列名和索引：把第一行数据顶掉了，被当做列名。所以需要注意。 5.查看data的shape： print d...

【Pandas】chunksize分块处理大型csv文件

coding回忆录

04-27

2390

– 错误的操作导致保存了1TB以上的csv，要对csv重新读取处理，直接使用read_csv()不带任何参数，会把RAM撑爆。 – 所以使用chunksize：不一次性将文件读入内存(RAM)中，而是分多次。官方示例: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-chunking import pandas as pd import time start = time.perf_counter() # calcula

Pandas分块读取大文件以及读写csv，txt文件的实用操作（待更新）

maligebilaowang的博客

07-27

5832

一、前言经常利用python编写数据处理脚本，而且经常需要从外界读取csv，txt等格式的文件。而且需要读取的文件很大，比如十几个g的大文件。这时候不能利用pandas直接读取，否则会给电脑内存造成太大的压力。因此就需要进行分块处理以及一边处理一边吧处理的结果写入文件的方式。二、Pandas读写txt以及csv文件的实用操作 2.1 读取csv文件的参数详解（部分实用参数详解，其他的用到可以再查文档）读取csv文件的相关参数： pandas.read_csv(filepath_or_buffer, s

Pandas数据集的分块读取

文程序公子的博客

07-24

2606

所谓“分块”，顾名思义，就是将数据集分成几块进行读取，比如有105条数据，一次读取10条，读取11次才能全部读完。以下提供两种分块读取的方法，两种方法各有优劣。

详解python中的pandas.read_csv()函数

06-10

2万+

详解python中的pandas.read_csv()函数