duplicated(),.drop_duplicates()

最新推荐文章于 2024-06-18 22:11:25 发布

Bobcanit

最新推荐文章于 2024-06-18 22:11:25 发布

阅读量468

点赞数

分类专栏： pandas 文章标签： python pandas

本文链接：https://blog.csdn.net/Bobcanit/article/details/133312595

版权

2 篇文章 0 订阅

订阅专栏

文章介绍了Pandas库中DataFrame对象的duplicated()方法，用于检测重复行并返回布尔系列，以及drop_duplicates()方法，用于删除重复行。通过实例演示了这两个函数在处理数据时的应用。

摘要由CSDN通过智能技术生成

duplicated() 是 Pandas 中 DataFrame 对象的一个方法，用于查找重复的行。该方法返回一个布尔型的 Series，其中每个元素表示相应行是否是重复行。

例如，假设我们有以下数据帧：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
        'Age': [25, 30, 35, 40, 25]}
df = pd.DataFrame(data)

我们可以使用 duplicated() 方法查找重复的行：

duplicates = df.duplicated()
print(duplicates)

输出结果为：

0    False
1    False
2    False
3     True
4     True
dtype: bool

在这个示例中，第 4 行和第 5 行被标记为重复行，因为它们具有相同的值。

drop_duplicates() 是 Pandas 中 DataFrame 对象的一个方法，用于删除重复的行。该方法返回一个新的数据帧，其中所有重复的行都被删除了。

例如，假设我们有以下数据帧：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
        'Age': [25, 30, 35, 40, 25]}
df = pd.DataFrame(data)

我们可以使用 drop_duplicates() 方法删除重复的行：

df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)

输出结果为：

      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3     David   40

在这个示例中，第 4 行和第 5 行被删除了，因为它们与第 0 行具有相同的值。

关注

专栏目录