笔记
逐块读取文件,主要是在读取文件时,设置chunksize参数
格式如下:
chunker = pd.read_csv("train.csv", chunksize = 100)
for ck in chunker:
print(type(ck))
print(len())
这里chunker可以看成是一个迭代器一样,把所需要读取的文件以每100行为一个块,切分成了多个块,最后不足100行的,就直接也按100行划分成块。下面是打印每一个块的类型及数据长度。
从上面结果来看,每一块是一个单独的dataframe类型。之所以采取逐块读取文件,个人觉得是有时候数据太大了,直接读取数据会很慢,所以就对数据分割的方式,将数据分成多个子文件,这样可以加快数据读取速度,也便于后续的数据分析。