我是熊猫的新手,正在尝试合并一些数据子集。我给出了一个具体的例子,但问题是一般性的:它是如何发生的,为什么发生的,我如何解决它?
我加载的数据大约为85兆字节,但我经常看到python会话运行到接近10千兆字节的内存使用量,然后给出一个内存错误。
我不知道为什么会发生这种情况,但这让我很难过,因为我甚至无法开始以我想要的方式查看数据。
以下是我所做的:
导入主数据import requests, zipfile, StringIO
import numpy as np
import pandas as pd
STAR2013url="http://www3.cde.ca.gov/starresearchfiles/2013/p3/ca2013_all_csv_v3.zip"
STAR2013fileName = 'ca2013_all_csv_v3.txt'
r = requests.get(STAR2013url)
z = zipfile.ZipFile(StringIO.StringIO(r.content))
STAR2013=pd.read_csv(z.open(STAR2013fileName))
导入一些交叉引用表STARentityList2013url = "http://www3.cde.ca.gov/starresearchfiles/2013/p3/ca2013entities_csv.zip"
STARentityList2013fileName = "ca2013entities_csv.txt"
r = requests.get(STARenti