pandas获取groupby分组里最大值所在的行方法

本文转载自此文,感谢楼主的耐心分享

如下面这个DataFrame,按照Mt分组,取出Count最大的那行

1

2

3

4

import pandas as pd

df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})

 

df

 CountMtSpValue
03s1a1
12s1b2
25s2c3
310s2d4
410s2e5
56s3f6

方法1:在分组中过滤出Count最大的行(这种效率非常低,不推荐使用)

1

df.groupby('Mt').apply(lambda t: t[t.Count==t.Count.max()])

  CountMtSpValue
Mt     
s103s1a1
s2310s2d4
410s2e5
s356s3f6

 

方法2:用transform获取原dataframe的index,然后过滤出需要的行(比较繁琐)

1

2

3

4

5

6

7

8

print df.groupby(['Mt'])['Count'].agg(max)

 

idx=df.groupby(['Mt'])['Count'].transform(max)

print idx

idx1 = idx == df['Count']

print idx1

 

df[idx1]

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

Mt

s1 3

s2 10

s3 6

Name: Count, dtype: int64

0 3

1 3

2 10

3 10

4 10

5 6

dtype: int64

0 True

1 False

2 False

3 True

4 True

5 True

dtype: bool

 CountMtSpValue
03s1a1
310s2d4
410s2e5
56s3f6

上面的方法都有个问题是3、4行的值都是最大值,这样返回了多行,如果只要返回一行呢?

方法3:idmax(旧版本pandas是argmax)(推荐)

1

2

idx = df.groupby('Mt')['Count'].idxmax()

print idx

1

2

3

4

5

6

df.iloc[idx]

Mt

s1 0

s2 3

s3 5

Name: Count, dtype: int64

 CountMtSpValue
03s1a1
310s2d4
56s3f6

1

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

 CountMtSpValue
03s1a1
310s2d4
56s3f6

1

2

3

4

5

6

7

8

9

10

def using_apply(df):

 return (df.groupby('Mt').apply(lambda subf: subf['Value'][subf['Count'].idxmax()]))

 

def using_idxmax_loc(df):

 idx = df.groupby('Mt')['Count'].idxmax()

 return df.loc[idx, ['Mt', 'Value']]

 

print using_apply(df)

 

using_idxmax_loc(df)

1

2

3

4

5

Mt

s1 1

s2 4

s3 6

dtype: int64

 MtValue
0s11
3s24
5s36

 

方法4:先排好序,然后每组取第一个(此方法效率非常高

1

df.sort('Count', ascending=False).groupby('Mt', as_index=False).first()

 MtCountSpValue
0s13a1
1s210d4
2s36f6

那问题又来了,如果不是要取出最大值所在的行,比如要中间值所在的那行呢?

思路还是类似,可能具体写法上要做一些修改,比如方法1和2要修改max算法,方法3要自己实现一个返回index的方法。 不管怎样,groupby之后,每个分组都是一个dataframe。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值