python读取score的前三行_python – 对每个组pandas数据帧中的列进行排序并选择前n行...

有两种解决方案:

df1 = df.sort_values('score',ascending = False).groupby('pidx').head(2)

print (df1)

mainid pidx pidy score

8 2 x w 12

4 1 a e 8

2 1 c a 7

10 2 y x 6

1 1 a c 5

7 2 z y 5

6 2 y z 3

3 1 c b 2

5 2 x y 1

df = df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index()

print (df)

pidx mainid pidy score

0 a 1 e 8

1 a 1 c 5

2 c 1 a 7

3 c 1 b 2

4 x 2 w 12

5 x 2 y 1

6 y 2 x 6

7 y 2 z 3

8 z 2 y 5

时序:

np.random.seed(123)

N = 1000000

L1 = list('abcdefghijklmnopqrstu')

L2 = list('efghijklmnopqrstuvwxyz')

df = pd.DataFrame({'mainid':np.random.randint(1000, size=N),

'pidx': np.random.randint(10000, size=N),

'pidy': np.random.choice(L2, N),

'score':np.random.randint(1000, size=N)})

#print (df)

def epat(df):

grouped = df.groupby('pidx')

new_df = pd.DataFrame([], columns = df.columns)

for key, values in grouped:

new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)

return (new_df)

print (epat(df))

In [133]: %timeit (df.sort_values('score',ascending = False).groupby('pidx').head(2))

1 loop, best of 3: 309 ms per loop

In [134]: %timeit (df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index())

1 loop, best of 3: 7.11 s per loop

In [147]: %timeit (epat(df))

1 loop, best of 3: 22 s per loop

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值