pandas函数之groupby

最新推荐文章于 2024-07-25 18:55:58 发布

vcc12v

最新推荐文章于 2024-07-25 18:55:58 发布

阅读量73

点赞数

文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/vcc12v/article/details/130329180

版权

#Pandas-groupby

最近在做项目的时候遇到了，需要将数据根据某个（多个）字段划分为不同的组的情况。Pandas中的groupy正好可以解决这个问题。

首先我们生成用于模拟的数据

import pandas as pd

data = [[0,2,1,12], [0,3,13,24],[0,2,25,36],[1,2,37,48],\
        [1,2,49,60], [0,3,61,72], [0,2,73,84], [0,2,85,96]]


column_map = pd.DataFrame(data,columns=['work_order',\
                                'work_station', 'range_low', 'range_high'],dtype=float)

然后按字段名’work_order’和’work_station’对数据进行分组

wo_ws_group = column_map.groupby(['work_order','work_station'], as_index=False)

print(wo_ws_group.size())

其结果就是
在这里插入图片描述
根据索引就可以得到某一分组的数据

wo_ws_group_0_2 = wo_ws_group.get_group((0.0,2.0))

data = wo_ws_group_0_2.values

print(data)

也可以遍历整个groupby的结果
```python
for (k1,k2),group in column_map.groupby(['work_order','work_station']):
        print(k1,k2)
        # print(group)

for (k1,k2),group in column_map.groupby(['work_order','work_station']):
        # print(k1,k2)
        print(group)

在这里插入图片描述

在这里插入图片描述
从这里可以看出，groupby的返回值首先是一个包含索引的tuple，之后是相应的分组数据。

也可以对分组后的结果计算一些统计信息

means = column_map.groupby(['work_order','work_station'], as_index=False).mean().values

在这里插入图片描述
当然也可人为增加分组指标

column_map['label'] = [0,0,0,1,1,1,2,2]

wo_ws_group = column_map.groupby(['label'])

print(wo_ws_group.size())

在这里插入图片描述

o_ws_group_0_2 = wo_ws_group.get_group((0.0))


data = wo_ws_group_0_2.values
print(data)

means = column_map.groupby(['label']).mean().values
print(means)

在这里插入图片描述

注意遍历的时候取出的数据，最后label是放进去的

for name,group in column_map.groupby(['label']):
        print(name)
        print(group)

在这里插入图片描述

Remark: 在使用本身的分组的信息应该使用as_index=False，在使用人为的分组的信息应该使用as_index=True。具体使用时应该查看一下数据输出结果再做判断，因为函数内部具体操作了哪些也不是很清楚，很有可能不是少了列就是多了列，一定要仔细看一下结果。

vcc12v

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
pandas函数之groupby

Remark: 在使用本身的分组的信息应该使用as_index=False，在使用人为的分组的信息应该使用as_index=True。最近在做项目的时候遇到了，需要将数据根据某个（多个）字段划分为不同的组的情况。从这里可以看出，groupby的返回值首先是一个包含索引的tuple，之后是相应的分组数据。，因为函数内部具体操作了哪些也不是很清楚，很有可能不是少了列就是多了列，注意遍历的时候取出的数据，最后label是放进去的。也可以对分组后的结果计算一些统计信息。根据索引就可以得到某一分组的数据。
复制链接

扫一扫