最近,下载了一个csv结构的数据集,有1.2G。对该文件试图用pd.read_csv进行读取的时候,发现出现内存不足的情况
,电脑内存不足,不能一次性的读取。此时我们就需要对csv文件进行分块读取。
在对数据进行分块读取之前,我们需要对pd.read_csv()中的参数进行一定的了解,pandas.read_csv()官方文档。如果英文看不懂的可以去网上找一下别人翻译出来的。
在官方文档中,read_csv()函数有一个chunkSize参数,通过指定一个chunk Size分块大小来读取文件,返回的是一个可迭代的对象Text FileReader