Pandas出现KeyError及其分析解决

本文记录了解决使用Pandas处理股票日线数据时遇到的KeyError问题的过程,通过检查数据源和调整循环跳出条件,成功避免了错误的发生。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面

今天在用爬虫及Pandas更新股票日线数据的时候发现KeyError报错,后面跟了一个DataFrame列索引,一开始以为是索引修改列的值导致的问题,修改为.loc错误依然出现,后来将列值的内容修改方法改为.apply(lambda)问题依然出现。就在百思不得其解时,我发现了问题所在。。。

报错详细信息

主要配置及环境

Windows 10 64位
Python:3.6.8
Pandas:1.0.3

报错内容

Traceback (most recent call last):
  File "E:\py36\lib\site-packages\pandas\core\indexes\base.py", line 2646, in get_loc
    return self._engine.get_loc(key)
  File "pandas\_libs\index.pyx", line 111, in pandas._libs.index.IndexEngine.get_loc
  File "pandas\_libs\index.pyx", line 138, in pandas._libs.index.IndexEngine.get_loc
  File "pandas\_libs\hashtable_class_helper.pxi", line 1619, in pandas._libs.hashtable.PyObjectHashTable.get_item
  File "pandas\_libs\hashtable_class_helper.pxi", line 1627, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'turnover'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "E:\aaaDesktop\test.py", line 34, in <module>
    df['turnover'] = df['turnover'] * 100
  File "E:\py36\lib\site-packages\pandas\core\frame.py", line 2800, in __getitem__
    indexer = self.columns.get_loc(key)
  File "E:\py36\lib\site-packages\pandas\core\indexes\base.py", line 2648, in get_loc
    return self._engine.get_loc(self._maybe_cast_indexer(key))
  File "pandas\_libs\index.pyx", line 111, in pandas._libs.index.IndexEngine.get_loc
  File "pandas\_libs\index.pyx", line 138, in pandas._libs.index.IndexEngine.get_loc
  File "pandas\_libs\hashtable_class_helper.pxi", line 1619, in pandas._libs.hashtable.PyObjectHashTable.get_item
  File "pandas\_libs\hashtable_class_helper.pxi", line 1627, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'turnover'
[Finished in 5.4s]

问题解决

代码主要流程:
抓取Sina财经的日线数据接口(有需要者可以私信我了解更多),抓取交易日所有交易的股票数据,进行数据处理、整合为DataFrame并逐行读取存入CSV文件。

既然不是索引的问题,那就只有一直往上追溯,结果发现,在 设置抓取函数的循环跳出条件 时,由于各大网站最近在备案&更新,导致空数据页面显示内容变成了一个字符串类型的空列表。。。于是只要将循环跳出的条件设置为:

if eval(content) == []:

就可以解决问题了。

举一反三

由于这次的经验,我发现在出现KeyError报错的时候,需要先查看数据是不是存在空值尤其是程序里面有爬虫代码的时候,更需要注意。网站经常在变,不过基本上没有大的变化,万变不离其宗,掌握大的方法就可以了。

P.S. 本文为小白的理解与看法,有用就点个赞吧。

### 解决 Pandas DataFrame 中 `KeyError` 错误的方法 #### 1. 确认列名是否存在 在尝试访问 DataFrame 列之前,应该先确认该列确实存在于 DataFrame 中。可以通过打印 DataFrame 的 `.columns` 属性来查看所有可用的列名称。 ```python import pandas as pd df = pd.read_csv('1site.csv') print(df.columns.tolist()) ``` 如果发现 `'age'` 并不在列表中,则可能是拼写错误或者文件中的实际列名为其他形式[^1]。 #### 2. 处理缺失或多余的空白字符 有时 CSV 文件内的列名可能含有前导或尾随空格,这会导致即使看起来相同的字符串也无法匹配成功。可以使用 strip 方法去除这些不必要的空白: ```python df.rename(columns=lambda x: x.strip(), inplace=True) ``` 之后再试一次访问所需的列。 #### 3. 正确区分大小写敏感度 Pandas 是严格区分大小写的;因此,在指定要查询的字段时要注意保持一致的大写字母和小写字母组合方式。例如,如果原始数据集中某列为 `"Age"` 而不是全部小写的 `"age"` ,那么直接用后者就会引发异常。 #### 4. 对于遍历时产生的 KeyError 对于像 `for i in range(15): print(col.loc[i])` 这样因为索引不对应而引起的 `KeyError` , 应确保使用的索引与当前 DataFrame 设置相吻合。如果是基于位置的操作建议采用 `iloc[]`, 否则应当调整循环变量以适应自定义索引范围[^3]: ```python # 如果知道确切长度并希望按自然数顺序迭代每一行 for idx in df.index: print(df.loc[idx]) # 或者更简单地利用 iterrows() for index, row in df.iterrows(): print(row['column_name']) ``` 通过以上措施通常能够有效预防及修复大部分由 `KeyError` 所带来的麻烦。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zorchp

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值