pandas 取出dataframe中重复的所有数据(关于某字段)，并排序，便于比较数据的不同点。

最新推荐文章于 2021-06-04 22:37:31 发布

Wolfly_Fu

最新推荐文章于 2021-06-04 22:37:31 发布

阅读量1.3w

点赞数 4

分类专栏： python 文章标签： pandas去重得到重复的数据比较重复列的数据异同

本文链接：https://blog.csdn.net/m0_37235489/article/details/84584520

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

当需要的是DataFrame那些重复数据，尤其是要比较重复数据的异同时，就需要将重复数据提取出来时，再关联原数据，并做排序，进行比较。

方法一、主要思路：

1. 采用drop_duplicates对数据去两次重，一次将重复数据保留一个（keep='first），另一次将重复数据全部去除（keep=False）;

2. 合并两者，并去重，得到重复的字段；

3、由重复的字段，得到原数据的重复所有数据，并进行排序，便于比较数据的异同；

示例代码如下：

#获取重复的数据
import pandas as pd  
data={'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']}
frame=pd.DataFrame(data)  
frame

a = frame.drop_duplicates(subset=['pop'],keep='first') #保留重复数据的第一个

b = frame.drop_duplicates(subset=['pop'],keep=False)  #去掉重复的数据

c = a.append(b).drop_duplicates(subset=['pop'],keep=False) #合并两者，再去掉重复的数据

data_cf = frame.loc[frame['pop'].isin(c['pop'])] ##获得了原数据的所有重复项

data_cf = data_cf.sort_values('pop',ascending=True) ##排序

方法二：

至使用 pandas.duplicate()

代码如下：

##方法二、直接使  duplicate()
frame[frame.duplicated('pop')]  #返回boolean Series表示重复行，可选择仅考虑某些列

参考，https://blog.csdn.net/jasonwang_/article/details/78984852 感谢。

Wolfly_Fu

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
pandas 取出dataframe中重复的所有数据(关于某字段)，并排序，便于比较数据的不同点。

当需要的是DataFrame那些重复数据，尤其是要比较重复数据的异同时，就需要将重复数据提取出来时，再关联原数据，并做排序，进行比较。方法一、主要思路：1. 采用drop_duplicates对数据去两次重，一次将重复数据保留一个（keep='first），另一次将重复数据全部去除（keep=False）; 2. 合并两者，并去重，得到重复的字段；3、由重复的字段，得...
复制链接

扫一扫