数据清洗处理实战：pandas查找与删除重复行（duplicate()与drop_duplicate()方法详解）

最新推荐文章于 2025-04-15 22:06:21 发布

原创最新推荐文章于 2025-04-15 22:06:21 发布 · 6.1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#python #大数据

应用技巧同时被 3 个专栏收录

24 篇文章

订阅专栏

python量化金融

9 篇文章

订阅专栏

办公自动化

4 篇文章

订阅专栏

在数据识别开发中，多人识别的数据汇总后存在重行，为理清责任需标记并删除重复数据。Pandas提供了高效处理方法，用duplicate()方法标记，drop_duplicate方法去重，还给出了查重和去除重复值的解决案例。

部署运行你感兴趣的模型镜像

一、实战应用背景

最近在进行数据识别方面的开发时，多人识别的数据汇总后，发现有不少是重行的，这时为理清责任，就需要将重复数据进行标记，并删除重复数据。针对这一问题，pandas上有高效的处理方法，就是用duplicate()方法进行标记，用drop_duplicate方法进行去重。

二、duplicate()方法与drop_duplicate方法参数及解释

两个方法的参数见下表

两种方法参数对照表
duplicate()方法	drop_duplicate（）	参数含义
`subset`	`subset`	如果不按照全部内容查重，那么需要指定按照哪些列进行查重。需要注意的是，最好找一个唯一值设置，如单号、身份证号等，比如按照姓名进行查重，就会出现重名的情况。本例用单号：subset=['委托序号']，如果用姓名，可以增加其他列进行辅助，解决重名的问题，如可以按照姓名和出生日期两列查重，subset=['name','birthday']，同理还可以再添加列，这样就可以基本保证去重效果了。
keep	keep	决定保留重复行中的哪个：first:保留重复值的第一个；last:保留重复值的最后一个；False：删除重复值的所有行
	inplace	布尔值，默认为`False`，是否直接在原数据上删除重复项或删除重复项后返回副本。
	ignore_index	布尔值，默认False：不改变DataFrame的原有索引标签，否则将修改为0,1，…n-1

三、解决案例

（一）查重

df.duplicated(subset='委托序号',keep='first')

返回的这些布尔值可以用一个pd.Series来接收，可以和原来的数据框合并，以进行对比。

df_duplicated = df.duplicated(subset='委托序号',keep='first')
df['duplicated'] = df_duplicated 
# 或者用下面的语句，但没有上面语句简洁实用 
# df = pd.concat([df,df_duplicated],axis=1)
df

（二）去除重复值

df.drop_duplicates('委托序号',
                    keep='first',
                    inplace=True,
                    ignore_index=True)

您可能感兴趣的与本文相关的镜像

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本