Pandas数据预处理——drop_duplicates()函数

最新推荐文章于 2023-09-25 14:45:52 发布

Vous oublie@

最新推荐文章于 2023-09-25 14:45:52 发布

阅读量573

点赞数

分类专栏： python学习数据分析文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/qq_54000767/article/details/130350336

版权

28 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Pandas是一个强大的数据分析工具，可以用于数据预处理、数据清洗、数据分析和可视化等多个领域。在数据预处理中，数据去重是非常重要的一个步骤。Pandas提供了drop_duplicates()函数来实现数据去重，可以根据指定的列或行进行去重操作。

下面是使用drop_duplicates()函数实现数据去重的示例代码：

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 对指定列进行去重
df = df.drop_duplicates(subset=['col1', 'col2'])

# 输出去重后的数据
print(df)

在上面的代码中，首先使用read_csv()函数读取一个名为data.csv的csv文件。然后使用drop_duplicates()函数对指定的列（col1和col2）进行去重操作，并将去重后的结果保存到df中。最后，使用print()函数输出去重后的数据。

除了使用drop_duplicates()函数外，还可以使用unique()函数实现数据去重。unique()函数可以返回指定列或行的唯一值，可以用于数据去重或者统计操作。下面是使用unique()函数实现数据去重的示例代码:

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 获取指定列的唯一值
unique_values = df['col1'].unique()

# 输出唯一值
print(unique_values)

在上面的代码中，首先使用read_csv()函数读取一个名为data.csv的csv文件。然后使用unique()函数获取指定列（col1）的唯一值，并将唯一值保存到unique_values中。最后，使用print()函数输出唯一值。

总的来说，Pandas提供了丰富的数据预处理函数，可以轻松实现数据去重、数据筛选、数据转换等操作。除了drop_duplicates()和unique()函数，还有很多其他的数据处理函数，可以根据具体的需求进行选择和使用。

关注