pandas函数之groupby

#Pandas-groupby

最近在做项目的时候遇到了,需要将数据根据某个(多个)字段划分为不同的组的情况。Pandas中的groupy正好可以解决这个问题。

首先我们生成用于模拟的数据

import pandas as pd

data = [[0,2,1,12], [0,3,13,24],[0,2,25,36],[1,2,37,48],\
        [1,2,49,60], [0,3,61,72], [0,2,73,84], [0,2,85,96]]


column_map = pd.DataFrame(data,columns=['work_order',\
                                'work_station', 'range_low', 'range_high'],dtype=float)

然后按字段名’work_order’和’work_station’对数据进行分组

wo_ws_group = column_map.groupby(['work_order','work_station'], as_index=False)

print(wo_ws_group.size())

其结果就是
在这里插入图片描述
根据索引就可以得到某一分组的数据

wo_ws_group_0_2 = wo_ws_group.get_group((0.0,2.0))

data = wo_ws_group_0_2.values

print(data)

也可以遍历整个groupby的结果
```python
for (k1,k2),group in column_map.groupby(['work_order','work_station']):
        print(k1,k2)
        # print(group)
for (k1,k2),group in column_map.groupby(['work_order','work_station']):
        # print(k1,k2)
        print(group)

在这里插入图片描述

在这里插入图片描述
从这里可以看出,groupby的返回值首先是一个包含索引的tuple,之后是相应的分组数据。

也可以对分组后的结果计算一些统计信息

means = column_map.groupby(['work_order','work_station'], as_index=False).mean().values

在这里插入图片描述
当然也可人为增加分组指标

column_map['label'] = [0,0,0,1,1,1,2,2]

wo_ws_group = column_map.groupby(['label'])

print(wo_ws_group.size())

在这里插入图片描述

o_ws_group_0_2 = wo_ws_group.get_group((0.0))


data = wo_ws_group_0_2.values
print(data)

means = column_map.groupby(['label']).mean().values
print(means)

在这里插入图片描述

注意遍历的时候取出的数据,最后label是放进去的

for name,group in column_map.groupby(['label']):
        print(name)
        print(group)

在这里插入图片描述

Remark: 在使用本身的分组的信息应该使用as_index=False, 在使用人为的分组的信息应该使用as_index=True。具体使用时应该查看一下数据输出结果再做判断,因为函数内部具体操作了哪些也不是很清楚,很有可能不是少了列就是多了列,一定要仔细看一下结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值