最近牵扯到读取比较大的数据库文件,处理起来都在几百万条的规模,有时候columns一多就会出现读取不全的情况。目前整理出三个增加内存读取容量的办法:
1、
mmdou1 = pd.read_csv(r'C:\Users\jifeng\Desktop\Pyalgotrade本地化平台\stocks_data\000001.XSHE-2021-tushare.csv')
增加option更改为:
mmdou1 = pd.read_csv(r'C:\Users\jifeng\Desktop\Pyalgotrade本地化平台\stocks_data\000001.XSHE-2021-tushare.csv',low_memory=False)
2、
mmdou2=pd.read_csv(r'C:\Users\jifeng\Desktop\etf基金资金流入流出\Result2022.csv',index_col=0,chunksize=100000)
通过修改chunksize,将数据文件分成多块进行编辑,后期再使用concat进行合成
3、数据库获取数据之前将文件分成多份,基本操作类似chunksize with open(r'C:\Users\jifeng\Desktop\etf基金资金流入流出\Resu3lt2022.csv','r') as csvfile: reader = csv.reader(csvfile) rows = [row for row in reader] # print(reader) print(len(rows)) # i+=1