#Pandas-groupby
最近在做项目的时候遇到了,需要将数据根据某个(多个)字段划分为不同的组的情况。Pandas中的groupy正好可以解决这个问题。
首先我们生成用于模拟的数据
import pandas as pd
data = [[0,2,1,12], [0,3,13,24],[0,2,25,36],[1,2,37,48],\
[1,2,49,60], [0,3,61,72], [0,2,73,84], [0,2,85,96]]
column_map = pd.DataFrame(data,columns=['work_order',\
'work_station', 'range_low', 'range_high'],dtype=float)
然后按字段名’work_order’和’work_station’对数据进行分组
wo_ws_group = column_map.groupby(['work_order','work_station'], as_index=False)
print(wo_ws_group.size())
其结果就是
根据索引就可以得到某一分组的数据
wo_ws_group_0_2 = wo_ws_group.get_group((0.0,2.0))
data = wo_ws_group_0_2.values
print(data)
也可以遍历整个groupby的结果
```python
for (k1,k2),group in column_map.groupby(['work_order','work_station']):
print(k1,k2)
# print(group)
for (k1,k2),group in column_map.groupby(['work_order','work_station']):
# print(k1,k2)
print(group)
从这里可以看出,groupby的返回值首先是一个包含索引的tuple,之后是相应的分组数据。
也可以对分组后的结果计算一些统计信息
means = column_map.groupby(['work_order','work_station'], as_index=False).mean().values
当然也可人为增加分组指标
column_map['label'] = [0,0,0,1,1,1,2,2]
wo_ws_group = column_map.groupby(['label'])
print(wo_ws_group.size())
o_ws_group_0_2 = wo_ws_group.get_group((0.0))
data = wo_ws_group_0_2.values
print(data)
means = column_map.groupby(['label']).mean().values
print(means)
注意遍历的时候取出的数据,最后label是放进去的
for name,group in column_map.groupby(['label']):
print(name)
print(group)
Remark: 在使用本身的分组的信息应该使用as_index=False, 在使用人为的分组的信息应该使用as_index=True。具体使用时应该查看一下数据输出结果再做判断,因为函数内部具体操作了哪些也不是很清楚,很有可能不是少了列就是多了列,一定要仔细看一下结果。