之前因为比赛一直在玩DataFrame,处理一些小型数据感觉很是方便。但是今天遇到了一个3.32G大的CSV文件感觉甚是无力,总是报内存错误。上网查找了一些方法感觉都很有启发啊,所以自己整合了一下。并记录下来,以防记性不好的我忘记。
方法一:
with open('C:/Users/asus/Desktop/Python/test.csv') as f:
for line in f:
print line
这种方法虽然写起来甚是简便,代码量很少,但是读出来的都是字符串,不易清洗整理和计算,且耗时特别长,足有202s。但是可以一运行就出来东西,可以暂停来观察内容的格式什么的。
方法二:
def read_in_block(file_path):
BLOCK_SIZE = 1024
with open(file_path,'r') as f:
while True:
block = f.read(BLOCK_SIZE)
if block: