Pandas优先保留某一列频数少,然后再对另外一列进行去重
删除id重复的情况:由于前面的排序是把计数少的在前面,为了尽可能的保留计数少的,所以我们去重的时候要优先保留第一个,也就是下面的keep='first'文章大概的解决的需求是,要对某一列(下文以“办理人id”为例)进行去重,并且要优先保留另外一列(下文以““事项名称””为例)计数较少的。先导入一组数,需求是要计算字段“事项名称”出现的总次数,并且在df新增一列,把计数结果放入。先用value_counts()计数,并且转换为dataframe的格式。然后进行排序,根据自己的需求,把频数较少的排列在前面。
原创
2023-04-20 15:19:17 ·
1208 阅读 ·
1 评论