pandas.DataFrame.groupby

d2a0857cef81dbaff0f254d808f8b84d.png

pandas 有些功能用起来就和SQL一样,前面有说过类似JOIN的操作

橘猫吃不胖:pandas回顾小结(三)-合并与拼接​zhuanlan.zhihu.com

6488e47df18ccad390cc04141cfcb85f.png

聚合也是SQL中很常用的操作

DataFrame.groupbyby=Noneaxis=0level=Noneas_index=Truesort=Truegroup_keys=Truesqueeze=<object object>observed=Falsedropna=True)

我们传入要聚合的字段,返回的是DataFrameGroupBy对象

 
  1. df = pd.DataFrame({'Animal': ['Falcon', 'Falcon',

  2. 'Parrot', 'Parrot'],

  3. 'Max Speed': [380., 370., 24., 26.]})

  4. df.groupby(by=['Animal'])

29b8ebb86fc03edf00371bffe1178286.png

 
  1. gp = df.groupby(by=['Animal'])

  2. gp.groups

  3. gp.indices

25d3579608c5d803fb030f5b8f7d7b93.png

groupby之后,数据会被分组,按照指定字段的分组,这里就按照不同动物进行了分组

如果会SQL,这里理解会很容易,比如,我们想要看不同动物的最高速度

我们其实想知道每个分组里的最大值是多少

 
  1. gp.max()

  2. gp.min()

1f1dd1a534110447d6dd07a14158057a.png

这样其实就是我们想要的数据了

对多个字段进行聚合

 
  1. df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',

  2. 'foo', 'bar', 'foo', 'foo'],

  3. 'B': ['one', 'one', 'two', 'three',

  4. 'two', 'two', 'one', 'three'],

  5. 'C': np.random.randint(10),

  6. 'D': np.random.randint(8)})

  7. df.groupby(by=['A','B']).sum()

38c3184a73e5ea8c28608f443d3a731b.png

这里,默认对所有的列都做了聚合操作

可以只对C列进行操作

df.groupby(['B','A'])['C'].sum()

96fbdced1efaa66a1ba861a75873f90a.png

DataFrameGroupBy对象是可以遍历的

 
  1. gp = df.groupby(['B','A'])['C']

  2. for name, group in gp:

  3. print(name)

  4. print(group)

85a0f9bf2fafa0219237df8d8a7ff622.png

有时候,我们相对不同的字段,使用不同的聚合函数

这里需要用到agg函数

DataFrame.aggfunc=Noneaxis=0*args**kwargs)
 
  1. df.groupby(['A']).agg('max')

  2. df.groupby(['A']).agg({'C':['min','max'], 'D':['sum']})

5a17ddde87ae4a737da075ef697d958e.png


上面,我们使用了聚合函数,现在,来一个综合的小栗子

已知,数据集,如下所示:

 
  1. df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',

  2. 'foo', 'bar', 'foo', 'foo'],

  3. 'B': ['one', 'one', 'two', 'three',

  4. 'two', 'two', 'one', 'three'],

  5. 'C': np.random.randint(10),

  6. 'D': np.random.randint(8)})

b9e4f10a369b4cde4ba2dd1df96cb919.png

现在,我们要添加C_total列,表示对A列聚合,C列的和,就是group by A ,sum(C)

 
  1. gc = df.groupby(['A']).agg({'C':'sum'}).add_suffix('_total')

  2. df.merge(gc, left_on='A', right_index=True)

8157c83801015ddbaf2b99438c52fed5.png

这里先聚合后,使用 add_suffix,添加了后缀,然后使用merge函数,将两个DataFrame连接起来

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值