rank函数在excel中尝用来实现对数据的排名,在pandas中有同样的函数来实现同样的功能,下面我们具体来学习一下。
1、rank函数主要有以下几个参数。
(1)method确定数值相等时的排名策略。有以下5种方式,后面通过实例说明前4种方式的使用
‘average’, ‘min’, ‘max’, ‘first’, ‘dense’
(2)na_option确定对na值参与时的排名策略。有以下三种方式,
‘keep’, ‘top’, ‘bottom’
(3)ascending
确定是否按照升序排名,默认为升序
2、实例
>>> df = pd.read_excel(r'D:/myExcel/1.xlsx')
>>> df
name score
0 lc 78.0
1 la 31.0
2 lb 79.0
3 ld 78.0
4 le 90.0
5 ll NaN
(1)method参数为average时,即默认值时。
# 由于在升序过程中,lc, ld在排名中处于2,3的位置,默认averange会取
# 2,3的平均值2.5作为这两行的排名
name score default_rank
0 lc 78.0 2.5
1 la 31.0 1.0
2 lb 79.0 4.0
3 ld 78.0 2.5
4 le 90.0 5.0
5 ll NaN NaN
(2)method参数为min时,即取2,3中的较小值作为两行的排名。
>>> df['min_rank'] = df['score'].rank(method='min')
>>> df
name score min_rank
0 lc 78.0 2.0
1 la 31.0 1.0
2 lb 79.0 4.0
3 ld 78.0 2.0
4 le 90.0 5.0
5 ll NaN NaN
(3)method参数为max时,即取2,3中的较大值作为两行的排名。
>>> df
name score max_rank
0 lc 78.0 3.0
1 la 31.0 1.0
2 lb 79.0 4.0
3 ld 78.0 3.0
4 le 90.0 5.0
5 ll NaN NaN
(4)method参数为first时,即按照出现的位置确定2,3, lc行首先出现,因此其为2
>>> df['first_rank'] = df['score'].rank(method='first')
>>> df
name score first_rank
0 lc 78.0 2.0
1 la 31.0 1.0
2 lb 79.0 4.0
3 ld 78.0 3.0
4 le 90.0 5.0
5 ll NaN NaN
2、na_option
对na值的处理,默认采用keep策略,即保留为nan不参与排名
(1)值为top时,即na值排列在最前方
>>> df['first_rank'] = df['score'].rank(method='first', na_option='top')
>>> df
name score first_rank
0 lc 78.0 3.0
1 la 31.0 2.0
2 lb 79.0 5.0
3 ld 78.0 4.0
4 le 90.0 6.0
5 ll NaN 1.0
(2)值为bottom时,即na值排列在最后方
>>> df['first_rank'] = df['score'].rank(method='first', na_option='bottom')
>>> df
name score first_rank
0 lc 78.0 2.0
1 la 31.0 1.0
2 lb 79.0 4.0
3 ld 78.0 3.0
4 le 90.0 5.0
5 ll NaN 6.0
3、将ascending参数指定为false,修改排序规则为降序排列
>>> df['first_rank'] = df['score'].rank(method='first', na_option='bottom', ascending=False)
>>> df
name score first_rank
0 lc 78.0 3.0
1 la 31.0 5.0
2 lb 79.0 2.0
3 ld 78.0 4.0
4 le 90.0 1.0
5 ll NaN 6.0
哈哈,以上就是python小工具关于pandas中rank函数的使用,还挺简单的,欢迎大家关注python小工具,一起学习python和pandas