回到NumPy的话题,开始分析来自这个地址的数据集。
df=np.genfromtxt(filename,skip_header=1,delimiter=",",converters=None,names=True)
然后就出问题了,
ValueError: Some errors were detected !
Line #146 (got 18 columns instead of 17)
这可咋整啊,打开文本文件一看,发现是换行符\n导致多了一行,回来翻一下文档,发现np.genfromtxt这个函数有个选项autostrip,设置为True时候可以将空白字符(比如说\n)去掉,
df=np.genfromtxt(filename,skip_header=1,delimiter=",",converters=None,names=True,autostrip=True)
然后果然不报错了,不过打开一看:
>>> df[0]
(33.0, nan, nan, nan, nan, 4789.0, nan, nan, nan, 11.0, nan, 220.0, 1.0, 339.0, 4.0, nan, nan)
然后突然想起来,ndarray是统一格式的,所以从最初就弄错了,应该求助pandas
df=pd.read_csv(filename,sep=',',lineterminator='\n',skiprows=0)
终于可以正常读入数据了,