1. iterator=True(配合get_chunk方法一块使用)
import pandas as pd
df = pd.read_csv("D:\data.csv", encoding="utf-8", error_bad_lines=False, iterator=True)
# iterator=True参数配合get_chunk()批量读取数据
print(type(df)) # 此时df对象的类型TextFileReader
chunk = df.get_chunk(10) #获取前10条数据
chunk = df.get_chunk(10) #获取11-20条数据
注意 : get_chunk()方法一般查看数据时使用!
所以如果想要读取全部数据并修改的话,我们可以这样增加chunksize属性:
import pandas as pd
df = pd.read_csv("D:\data.csv", encoding="utf-8",
error_bad_lines=False, chunksize=5000, iterator=True)
''' chunksize=5000含义为每次往内存中读入5000条数据进行操作,直到读完为止,
假如data.csv中有100000条数据,那么会读取20次,这样可以大大节约内存,如
何data.csv中数据太大的话,直接将所有数据读取的话会占用很大的内存 '''
# print(type(df)) #此时df对象的类型 DataFrame
flag = 1
for chunk in df: