1. 背景介绍
有一个结构化数据,几十G(20w*3w),基于数据建模,但列数太多,需要先做特征筛选,再入模,但是数据太大,pandas读取会报Memory error,那么该怎么分割该数据,以求pandas可以读取呢?
2.1 方法1:按列分开
把文件按列分成29个小文件,再逐个读取文件操作
for i in range(29):
locals()['fp'+str(i+1)] = open('./data1/'+'file'+str(i+1)
1. 背景介绍
有一个结构化数据,几十G(20w*3w),基于数据建模,但列数太多,需要先做特征筛选,再入模,但是数据太大,pandas读取会报Memory error,那么该怎么分割该数据,以求pandas可以读取呢?
2.1 方法1:按列分开
把文件按列分成29个小文件,再逐个读取文件操作
for i in range(29):
locals()['fp'+str(i+1)] = open('./data1/'+'file'+str(i+1)