可以使用pandas的read_csv方法,结合chunksize参数实现分块读入文本文件。
import pandas as pd
file_name = 'data.csv'
chunksize = 1000
for chunk in pd.read_csv(file_name, chunksize=chunksize):
# 对每一块数据进行处理
print(chunk)
这个例子中,我们将data.csv文件以chunksize=1000行为一块进行读取。
read_csv会返回一个可迭代对象,每次迭代读取chunksize指定的行数。
我们可以对每一块数据chunk进行处理,处理方式可以自定,例如清理、转换等。
这样可以分批处理大文件,而不需要一次性将整个文件读入内存。
chunksize的大小可以根据文件大小和内存情况自定义。这样可以更灵活高效地处理大规模文件。