python导入data文件,内存高效将许多数据文件导入Python中的panda DataFrame

我将|-delimited.dat文件的目录导入到熊猫DataFrame目录中。下面的代码有效,但我最终用完了MemoryError:。

import pandas as pd

import glob

temp = []

dataDir = 'C:/users/richard/research/data/edgar/masterfiles'

for dataFile in glob.glob(dataDir + '/master_*.dat'):

print dataFile

temp.append(pd.read_table(dataFile, delimiter='|', header=0))

masterAll = pd.concat(temp)有没有更高效的内存方法?或者我应该整个猪去数据库? (我最终会转移到数据库,但我正在向熊猫迈步。)谢谢!

FWIW,这是一个示例.dat文件的头部:

cik|cname|ftype|date|fileloc

1000032|BINCH JAMES G|4|2011-03-08|edgar/data/1000032/0001181431-11-016512.txt

1000045|NICHOLAS FINANCIAL INC|10-Q|2011-02-11|edgar/data/1000045/0001193125-11-031933.txt

1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-11|edgar/data/1000045/0001193125-11-005531.txt

1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-27|edgar/data/1000045/0001193125-11-015631.txt

1000045|NICHOLAS FINANCIAL INC|SC 13G/A|2011-02-14|edgar/data/1000045/0000929638-11-00151.txt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值