(代码详解)python实现分组计数+查看重复数据+删除重复数据+对数据进行排序

有如下数据:

如何按照"学校名称"进行分组,然后对每个学校的"专业代码"进行计数统计呢?

请看下边介绍

(一)导入数据

import pandas as pd
data=pd.read_excel("C:\\Users\\86159\Desktop\\CSDN\\分组计数数据.xlsx")

(二)查看重复行

data.duplicated()#查看重复行

结果如下:

说明索引为2,也就是第三行是重复行,一般在进行分组计数前需要去除重复数据

(三) 去除重复行

#删除重复行
data=data.drop_duplicates(keep='first')

       其中,`keep='first'` 表示在删除重复记录时,保留第一次出现的记录。换句话说,它会删除后续出现的相同记录,只保留第一个出现的记录。

结果如下:

        可以看出,索引为2 的那一行重复值被删除掉了,剩下的数据都是不重复的

 (四)分组计数

#groupby按学校名称分组
#agg对"专业代码"这一列数据进行统计频数
result=pd.DataFrame(data.groupby(['学校名称'])["专业代码"].agg('count'))

result.columns=["专业数量"]#指定列的名称为专业数量

        代码的意思是对名为"学校名称"的列进行分组,然后对"专业代码"列进行计数求和操作

        result.columns=["专业数量"]:指定列的名称为专业数量

结果如下:

(五) 对数据进行排序(降序或升序)

#根据"专业数量"进行排序
result.sort_values(by="专业数量",inplace=True, ascending=False) 

     这是一行Python代码,用于对名为`result`的DataFrame进行排序。

     以下是代码的组成部分和含义:

     1. `result.sort_values()`:这是Pandas库中的一个方法,用于对DataFrame进行排序。

     2. `by="专业数量"`:指定排序的依据是列名称为"专业数量"的列。

     3. `inplace=True`:表示在原地(inplace)进行排序,而不是创建一个新的排序后的DataFrame。

      4. `ascending=False`:表示按照降序(descending)排序。如果设置为True,则表示按照升序(ascending)排序。

     综上,这行代码的意思是:根据名为"专业数量"的列,对名为`result`的DataFrame进行降序排序。

结果如下:

 排完序后,可以取专业数量前三名的数据,如下:

result_top=result.head(3)#前3个数据

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值