我试图通过首先读取前100行,确定数据类型,然后将其作为完整读取的输入,来加快大文件的读取速度。不过,我对dtype选项有一些问题。它需要一个字典,但我的代码似乎不起作用,因为train变量的所有数据类型都是对象,而初始变量中还有诸如整数和float之类的其他类型。我做错什么了?在
这是我的密码import zipfile as zipf
train_zip = zipf.ZipFile('train.csv.zip')
initial = pd.read_csv(train_zip.open('train.csv'), nrows=100)
dic = dict(zip(list(initial.columns.values), initial.dtypes))
train = pd.read_csv(train_zip.open('train.csv'), dtype=dic)
需要说明的是:我的初始数据帧中的数据类型是正确的。以下是一些输出示例:
^{pr2}$
在读取train变量时对dtype=dic的调用出错了。因为火车的类型有:train.dtypes
ID object
VAR_0001 object
VAR_0002 object
VAR_0003 object
VAR_0004 object
VAR_0005 object
VAR_0006 object
VAR_0007 object
VAR_0008 object
VAR_0009 object
VAR_0010 object