pandas groupby apply keyerror

nilgnaw

已于 2024-01-25 18:55:01 修改

阅读量450

点赞数 5

文章标签： pandas

于 2024-01-25 18:49:22 首次发布

本文链接：https://blog.csdn.net/nilgnaw/article/details/135851114

版权

使用df.groupby.apply时，若其中一个分组在自定义函数中运行时出错，同时自定义函数中使用了分组key的列，会报找不到列名错误，但没有给出自定义函数运行错误的提示，如df.groupby([‘station_id’,‘dev_id’,‘tag_date’])在应用apply时，某个分组在自定义函数内运行出错，有如下报错：
在这里插入图片描述这是由于np.errstate(all=“ignore”)的参数设成了ignore，在ide中不会有提示，继续运行后面的代码，apply函数会再试一次，.apply充当filter操作，此时会排除分组使用的key列，也就是再次尝试计算时，传递给自定义函数的dataframe不包含[‘station_id’,‘dev_id’,‘tag_date’]三列，导致自定义函数使用’station_id’的时候，找不到列名。

原因详述：
1.程序进入\lib\site-packages\pandas\core\groupby\groupby.py的class groupby中的apply函数，运行到
with np.errstate(all=“ignore”):
return func(g, *args, **kwargs)
在这里插入图片描述
2.然后进入\lib\site-packages\pandas\core\groupby\ops.py的@final apply函数，执行到res = f(group)时有错误提示：类型错误TypeError
3.返回\lib\site-packages\pandas\core\groupby\groupby.py的class groupby中的apply函数的
with option_context(“mode.chained_assignment”, None):
在这里插入图片描述
调用self._python_apply_general后，返回同样的TypeError，从而进入except TypeError，从注释可以知道，这里对groupby对象重算了，且传递给udf自定义函数的dataframe不包含key列。
4.重算时由于找不到columns，导致最终显示出来的报错
KeyError: ‘station_id’

nilgnaw

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
pandas groupby apply keyerror

这是由于np.errstate(all=“ignore”)的参数设成了ignore，在ide中不会有提示，继续运行后面的代码，apply函数会再试一次，.apply充当filter操作，此时会排除分组使用的key列，也就是再次尝试计算时，传递给自定义函数的dataframe不包含[‘station_id’,‘dev_id’,‘tag_date’]三列，导致自定义函数使用’station_id’的时候，找不到列名。4.重算时由于找不到columns，导致最终显示出来的报错。
复制链接

扫一扫