Pandas:删掉重复行（drop_duplicates()用法）

锂享生活

已于 2024-05-05 09:50:07 修改

阅读量6.5k

点赞数 18

分类专栏： python 文章标签： pandas

于 2024-05-05 09:48:18 首次发布

本文链接：https://blog.csdn.net/m0_63227758/article/details/138460253

版权

本文详细介绍了在Python的pandas库中，drop_duplicates()函数如何用于数据清洗，包括基本用法、参数说明（如subset、keep和inplace）以及注意事项，特别是针对大型数据集和索引去重的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Python的数据分析领域，drop_duplicates()是一个非常实用的方法，主要用于数据清洗过程中去除数据框中的重复行。下面详细介绍drop_duplicates()的使用方法和参数：

一、基本用法

假设有一个包含重复行的DataFrame ，可以使用`drop_duplicates()方法来去除这些重复行。它会默认基于所有列来判断重复，并删除除第一个出现之外的所有重复行。

import pandas as pd

# 示例 DataFrame
data = {'Column1': [1, 2, 2, 3, 3, 3],
        'Column2': ['A', 'B', 'B', 'C', 'C', 'D']}
df = pd.DataFrame(data)

# 去除重复行
df_unique = df.drop_duplicates()

二、参数说明

subset: 这个参数允许在指定基于哪些列来检查重复项，默认为所有列。如果你只想基于某列去除重复，可以这样做：

    df_unique = df.drop_duplicates(subset='Column1')

keep: 控制如何处理重复项，默认值为'first'，表示保留每个重复组的第一个出现。你也可以设置为'last'来保留最后一个出现的重复行，或者设置为False`来删除所有重复行。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

锂享生活

关注关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python:删掉重复行之drop_duplicates（）用法

m0_63227758的博客

05-17

1万+

是Pandas中一个非常实用的方法，用于从DataFrame或Series中删除重复的行或值，只保留第一次出现的记录。

pandas DataFrame 删除重复的行的实现方法

12-25

1. 建立一个DataFrame C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]}) 2. 判断是否有重复项用duplicated（）函数判断 C.duplicated() 3. 有重复项，则可以用drop_duplicates()移除重复项 C.drop_duplicates() 4. Duplicated（）和drop_duplicates（）方法是以默认的方式判断全部的列（上面的例子中是看两个变量a和b是否都是重复出现）。我们也可以对特定的列进行重复项判断

1 条评论您还未登录，请先登录后发表或查看评论

Pandas检测删除重复行：duplicated()

最新发布

2301_77111486的博客

03-25

979

duplicated() 用于检测数据中的重复值。删除重复行可以用 drop_duplicates() 方法来实现。

Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()

一分耕耘一分收获

12-09

4582

DataFrame.drop_duplicates(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first', inplace: 'bool' = False, ignore_index: 'bool' = False)

pandas删除重复数据

路在脚下

02-02

1万+

pandas中重复问题

Pandas删除重复行数据

sdaupyy的博客

12-13

3584

pandas读取数据，分三种情况删除重复行，主要利用了drop_duplicates()...

pandas---删除重复行、映射、异常值检测与过滤、抽样

weixin_43961909的博客

06-15

3203

返回布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True。映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定。唯一，去重，DataFrame没有unique，Series调用unique。，map()函数中可以使用lambda函数，适合处理某一单独的列。：既支持 Series，也支持 DataFrame。使用duplicated()函数检测重复的行。可以求得DataFrame对象每一列的标准差。查看每一列的描述性统计量。

pandas.DataFrame.drop_duplicates 用法介绍

09-16

`pandas.DataFrame.drop_duplicates` 是一个非常实用的功能，用于处理数据框 (`DataFrame`) 中的重复行。这个函数在数据预处理阶段尤其重要，因为它可以帮助确保分析的数据是唯一的，避免因重复记录导致的错误统计。...

详解pandas使用drop_duplicates去除DataFrame重复项参数

01-01

Pandas之drop_duplicates：去除重复项方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回...

Pandas之drop_duplicates:去除重复项方法

09-20

首先，`drop_duplicates`方法是专为`DataFrame`格式的数据设计的，它允许我们从数据集中移除那些重复的行。该方法之所以重要，是因为重复数据会干扰数据分析的结果，比如在计算统计指标时会导致结果偏大。 `drop_...

【Python学习】pandas 删除重复行

sxl的博客

07-12

3563

【代码】【Python学习】pandas 删除重复行。

pandas去除重复列的实现方法

09-19

主要介绍了pandas去除重复列的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Python进阶：Pandas -- 清理重复数据

创作高质量博文，分享知识，共同进步！

02-27

3908

🌵 深入探索Python进阶之路，Pandas库成为我们清理重复数据的得力助手！🔥 在数据处理的旅程中，重复数据常常成为我们的绊脚石。但是，借助Pandas的`drop_duplicates()`函数，我们可以轻松地去重，让数据更加整洁！🔍 在这个过程中，我们深入了解了`drop_duplicates()`的参数，如`subset`、`keep`等，以便更灵活地处理数据。📕 回顾与收获时刻，我们感慨Pandas的强大与便捷，同时也期待与您共同成长，探索更多数据处理的奥秘！🤗

pandas: DataFrame 删除重复的行

热门推荐

qq_40981268的博客

01-15

5万+

重复值处理--Pandas

chongbaikaishi的博客

07-13

3940

返回去除重复行的DataFrame，不考虑索引。

pandas删除重复列

i_newbie的博客

08-11

3372

pandas删除完全重复的列，行列转换

利用pandas库，Python脚本能从数据中删除重复的行

AGVX58074的博客

07-29

550

利用pandas库，Python脚本能从数据中删除重复的行

在 Python Pandas 中删除多列中的所有重复行

01-29

327

这个函数会根据指定的列（默认是所有的列）来判断哪些行是重复的，然后返回一个新的DataFrame，其中不包含这些重复的行。这可以看到，尽管原始DataFrame中存在一些重复行，但通过使用`drop_duplicates()`函数，我们已经成功地删除了这些重复行。对于测试用例，你可以创建一个包含重复行的DataFrame，然后使用上述代码来检查是否正确地删除了这些重复行。# 使用drop_duplicates()函数删除重复的行，默认是删除所有列的重复行。print("原始 DataFrame：")

pandas 消除重复数据

glittledream的博客

03-10

9780

有这样一组重复数据：一、消除重复数据使用drop_duplicates方法（DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)） subset参数：根据哪个字段进行重复筛选（多个字段就写成列表形式） inplace参数：是否在原数据集更改 keep参数：是从头开始筛选还是从末尾数据开始筛...

如何在Pandas的DataFrame中使用`drop_duplicates`方法？

09-10

`drop_duplicates`是Pandas库中DataFrame对象的一个方法，用于删除DataFrame中的重复行。通过这个方法，你可以轻松地得到一个没有重复行的新DataFrame。该方法有几个重要的参数： 1. `subset`：默认为None，表示对所有列查找重复项。可以指定一列或多列的列名列表，只有这些列相同的行才会被认为是重复的。 2. `keep`：指定如何处理重复项，默认为`first`，表示保留第一次出现的项。其他可选值包括`last`（保留最后一次出现的项）和`False`（移除所有的重复项）。 3. `inplace`：默认为`False`，表示不会在原地修改DataFrame，而是返回一个新的DataFrame。如果设置为`True`，则会在原地修改DataFrame，返回`None`。下面是一个简单的使用例子： ```python import pandas as pd # 创建一个简单的DataFrame data = {'Name': ['Tom', 'Nick', 'Tom', 'Juli', 'Juli', 'Nick'], 'Age': [20, 21, 20, 19, 19, 21]} df = pd.DataFrame(data) # 删除重复项，只保留第一次出现的项 df_unique = df.drop_duplicates() # 如果只想在某个子集上找重复项，例如只在'Name'列上找 df_unique_subset = df.drop_duplicates(subset=['Name']) # 如果想移除所有的重复项 df_unique_all = df.drop_duplicates(keep=False) ``` 在使用`drop_duplicates`方法时，可以通过调整参数来精确控制哪些重复项被保留或删除，以满足不同的数据处理需求。