【无标题】

最新推荐文章于 2023-04-06 12:42:18 发布

亦步亦趋亦回首

最新推荐文章于 2023-04-06 12:42:18 发布

阅读量467

点赞数

文章标签： python pandas

本文链接：https://blog.csdn.net/baidu_38764028/article/details/128966965

版权

python

记录并解决自己在使用和学习python的过程中遇到的各种问题
尝试找到问题所在并解决
学无止境，以此记录自己才过的坑

1、pd.cut分类后的DataFrame列进行groupby()分组出现问题

分组后就算不存在数据的分类也会出现在groupby后的结果中
在使用pd.cut对列进行分类后，得到的列为‘里程类别’，该列类别为pandas._libs.interval.Interval，
取出部分数据得到a如下：
在这里插入图片描述

尝试四种分组计算方式
方式1：根据pd.cut分类后的列单独分组groupby后截取一列进行计算

b = a.groupby(['里程类别']).mileage.apply(lambda x: x[x >  100].shape[0]).reset_index().rename(columns ={'mileage': '数量'}) 
print(b)

在这里插入图片描述
(其中数量 2 为 numpy.int64)

方式2：根据pd.cut分类后的列单独分组groupby后截取全部列进行计算

b = a.groupby(['里程类别']).apply(lambda x: x[x.mileage >  100].shape[0]).reset_index().rename(columns ={0: '数量'})  
print(b)

在这里插入图片描述
(其中数量 2 为 numpy.int64)

方式3：根据pd.cut分类后的列单独分组groupby后截取全部列进行计算

b = a.groupby(['里程类别', 'goods_name']).mileage.apply(lambda x: x[x >  100].shape[0]).reset_index().rename(columns ={'mileage': '数量'}) 
print(b)

在这里插入图片描述
(其中数量 2.0 为numpy.float64)

方式4：根据pd.cut分类后的列单独分组groupby后截取全部列进行计算

b = a.groupby(['里程类别', 'goods_name']).apply(lambda x: x[x.mileage >  100].shape[0]).reset_index().rename(columns ={0: '数量'})  
print(b)

在这里插入图片描述
(其中数量 2 为 numpy.int64)
存在疑问一：
可以发现，当只使用pandas._libs.interval.Interval类型的列里程类别进行分组groupby计算的时候，无论调用单独字段还是全部进行apply的时候都会出现其他的类别行，尽管没有对应的数据结果，
当使用多个字段进行groupby时，调用单个字段还是会出现这种情况，而调用全部再apply则不会出现这样的情况！！！
（本人在计算的时候发现这样就会导致groupby计算的多个列的行数与其他部分不匹配）