目录
1、电脑内存不够,读取文件导致报错
试验环境:
操作系统:Linux
内存大小:4G
文件大小:8G
文件类型:txt
常规读取文本代码:使用read_csv
df = pd.read_csv(os.path.join(temp_path,"{}.txt".format(filename)),sep='\t',names=names)
解决方法:将数据集切割、分段读取,处理完一段数据就写入结果文件。
代码:
chunksize_value:分割后每段数据集的数量,取决于机器内存大小以及运算力
df = pd.read_csv(os.path.join(temp_path, "{}.txt".format("temp")), sep='\t', names=["id", "names"], chunksize=chunksize_value)
count = 0
for data_d in df:
count+=1
此处贴入你要处理的代码
if count==1:
result_df .to_csv(os.path.join(temp_path, "upload_data.csv"), header=False, index=None, mode='w')
else:
result_df .to_csv(os.path.join(temp_path, "upload_data.csv"), header=False, index=None, mode='a')