需求:用pandas 依据某列的值进行从小到大排名,排名从0开始,如果某列值相同则排名相同,总排名数小于记录条数

需求

需求:用pandas 依据某列的值进行从小到大排名,排名从0开始,如果某列值相同则排名相同,总排名数小于记录条数。

实现

之前,用下面的方法来实现上面的需求,但是因为数据量太大了,我从晚上开始运行,到第二天来还没运行出来结果,后来直接OOM了…
在这里插入图片描述
后来,突然想到hive中rank()函数、DENSE_RANK()、ROW_NUMBER()函数了,这三个函数功能分别是:
RANK() 排序相同时会重复,总数不会变(两个满分,99分的是第三名)
DENSE_RANK() 排序相同时会重复,总数会减少(两个满分,99分的是第二名)
ROW_NUMBER() 会根据顺序计算(两个一百分会按照某种方式排第一第二)。
通过查询,pandas果然有相应的方法rank(),要使用method='dense’才能满足我上面的需求。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值