python keyerror列名报错_python – Pandas在读取制表符分隔的数据时似乎忽略了第一个列名,给出了KeyError...

我在Ubuntu 13.10上的ipython3中使用pandas 0.12.0,以便在txt文件中拼写大的制表符分隔数据集.使用read_table从txt创建DataFrame似乎工作,第一行作为标题读取,但尝试使用其名称作为索引访问第一列会引发KeyError.我不明白为什么会发生这种情况,因为列名都显示已正确读取,并且每个其他列都可以这种方式编入索引.

数据如下所示:

RECORDING_SESSION_LABEL LEFT_GAZE_X LEFT_GAZE_Y RIGHT_GAZE_X RIGHT_GAZE_Y VIDEO_FRAME_INDEX VIDEO_NAME

73_1 . . 395.1 302 . .

73_1 . . 395 301.9 . .

73_1 . . 394.9 301.7 . .

73_1 . . 394.8 301.5 . .

73_1 . . 394.6 301.3 . .

73_1 . . 394.7 300.9 . .

73_1 . . 394.9 301.3 . .

73_1 . . 395.2 302 1 1_1_just_act.avi

73_1 . . 395.3 302.3 1 1_1_just_act.avi

73_1 . . 395.4 301.9 1 1_1_just_act.avi

73_1 . . 395.7 301.5 1 1_1_just_act.avi

73_1 . . 395.9 301.5 1 1_1_just_act.avi

73_1 . . 396 301.5 1 1_1_just_act.avi

73_1 . . 395.9 301.5 1 1_1_just_act.avi

15_1 395.4 301.7 . . . .

分隔符绝对是制表符,并且没有尾随或前导空格.

这个最小程序发生错误:

import pandas as pd

samples = pd.read_table('~/datafile.txt')

print(samples['RECORDING_SESSION_LABEL'])

这给出了错误:

---------------------------------------------------------------------------

KeyError Traceback (most recent call last)

in ()

----> 1 print(samples['RECORDING_SESSION_LABEL'])

/usr/lib/python3/dist-packages/pandas/core/frame.py in __getitem__(self, key)

2001 # get column

2002 if self.columns.is_unique:

-> 2003 return self._get_item_cache(key)

2004

2005 # duplicate columns

/usr/lib/python3/dist-packages/pandas/core/generic.py in _get_item_cache(self, item)

665 return cache[item]

666 except Exception:

--> 667 values = self._data.get(item)

668 res = self._box_item_values(item, values)

669 cache[item] = res

/usr/lib/python3/dist-packages/pandas/core/internals.py in get(self, item)

1654 def get(self, item):

1655 if self.items.is_unique:

-> 1656 _, block = self._find_block(item)

1657 return block.get(item)

1658 else:

/usr/lib/python3/dist-packages/pandas/core/internals.py in _find_block(self, item)

1934

1935 def _find_block(self, item):

-> 1936 self._check_have(item)

1937 for i, block in enumerate(self.blocks):

1938 if item in block:

/usr/lib/python3/dist-packages/pandas/core/internals.py in _check_have(self, item)

1941 def _check_have(self, item):

1942 if item not in self.items:

-> 1943 raise KeyError('no item named %s' % com.pprint_thing(item))

1944

1945 def reindex_axis(self, new_axis, method=None, axis=0, copy=True):

KeyError: 'no item named RECORDING_SESSION_LABEL'

简单地进行打印(样本)可以得到打印整个表的预期输出,包括第一列及其标题.尝试打印任何其他列(即;完全相同的代码,但’RECORDING_SESSION_LABEL’替换为’LEFT_GAZE_X’)可以正常工作.此外,标题似乎已正确读取,并且pandas将’RECORDING_SESSION_LABEL’识别为列名.这可以通过使用.info()方法并查看样本的.columns属性来证明:

>samples.info()

Int64Index: 28 entries, 0 to 27

Data columns (total 7 columns):

RECORDING_SESSION_LABEL 28 non-null values

LEFT_GAZE_X 28 non-null values

LEFT_GAZE_Y 28 non-null values

RIGHT_GAZE_X 28 non-null values

RIGHT_GAZE_Y 28 non-null values

VIDEO_FRAME_INDEX 28 non-null values

VIDEO_NAME 28 non-null values

dtypes: object(7)

>print(samples.columns)

Index(['RECORDING_SESSION_LABEL', 'LEFT_GAZE_X', 'LEFT_GAZE_Y', 'RIGHT_GAZE_X', 'RIGHT_GAZE_Y', 'VIDEO_FRAME_INDEX', 'VIDEO_NAME'], dtype=object)

当我使用ipython的选项卡完成时,我感觉到的另一个错误行为是相关的,它允许我访问样本列,就好像它们是属性一样.它适用于除第一列之外的每一列.即;使用> samples.R点击tab键仅建议samples.RIGHT_GAZE_X samples.RIGHT_GAZE_Y.

那么为什么它在查看整个数据帧时表现正常,但在尝试按名称访问第一列时失败,即使它似乎已正确读取该名称?

解决方法:

听起来你只需要从文件的开头有条件地删除BOM.您可以使用文件包装器执行此操作,如下所示:

def remove_bom(filename):

fp = open(filename, 'rbU')

if fp.read(2) != b'\xfe\xff':

fp.seek(0, 0)

return fp

# read_table also accepts a file pointer, so we can remove the bom first

samples = pd.read_table(remove_bom('~/datafile.txt'))

print(samples['RECORDING_SESSION_LABEL'])

标签:python,pandas,ipython,keyerror,tab-delimited

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值