Pandas 12-处理重复数据

检测重复数据

1. duplicated() 方法

duplicated() 方法用于检测 DataFrame 中的重复行。默认情况下,会返回一个布尔 Series,指示每一行是否是重复的。

import pandas as pd  
  
# 创建示例 DataFrame  
df = pd.DataFrame({  
    'A': [1, 2, 2, 3, 4, 4],    'B': ['a', 'b', 'b', 'c', 'd', 'd']})  
  
# 检测重复行  
duplicates = df.duplicated()  
print(duplicates)  

输出:

0    False  
1    False  
2     True  
3    False  
4    False  
5     True  
dtype: bool  
2. keep 参数

keep 参数用于指定如何标记重复项。可选值有:

  • 'first':将第一次出现的重复项标记为 False,后续重复项标记为 True(默认)。
  • 'last':将最后一次出现的重复项标记为 False,前面的重复项标记为 True
  • False:将所有重复项标记为 True
# 使用 'last' 参数  
duplicates_last = df.duplicated(keep='last')  
print(duplicates_last)  

输出:

0     True  
1    False  
2     True  
3    False  
4     True  
5    False  
dtype: bool  

删除重复数据

1. drop_duplicates() 方法

drop_duplicates() 方法用于删除 DataFrame 中的重复行。默认情况下,会删除所有重复行,只保留第一次出现的行。

# 删除重复行  
df_no_duplicates = df.drop_duplicates()  
print(df_no_duplicates)  

输出:

   A  B0  1  a  
1  2  b  
3  3  c  
4  4  d  
2. subset 参数

subset 参数用于指定基于哪些列来检测重复项。

# 基于列 'A' 删除重复行  
df_no_duplicates_A = df.drop_duplicates(subset=['A'])  
print(df_no_duplicates_A)  

输出:

   A  B0  1  a  
1  2  b  
3  3  c  
4  4  d  
3. keep 参数

keep 参数在 drop_duplicates() 方法中的用法与 duplicated() 方法相同。

# 使用 'last' 参数删除重复行  
df_no_duplicates_last = df.drop_duplicates(keep='last')  
print(df_no_duplicates_last)  

输出:

   A  B1  2  b  
3  3  c  
5  4  d  

示例代码

以下是一个完整的示例代码,展示了如何检测和删除 DataFrame 中的重复数据:

import pandas as pd  
  
# 创建示例 DataFrame  
df = pd.DataFrame({  
    'A': [1, 2, 2, 3, 4, 4],    'B': ['a', 'b', 'b', 'c', 'd', 'd']})  
  
# 检测重复行  
duplicates = df.duplicated()  
print("检测重复行:")  
print(duplicates)  
  
# 删除重复行  
df_no_duplicates = df.drop_duplicates()  
print("\n删除重复行:")  
print(df_no_duplicates)  
  
# 基于列 'A' 删除重复行  
df_no_duplicates_A = df.drop_duplicates(subset=['A'])  
print("\n基于列 'A' 删除重复行:")  
print(df_no_duplicates_A)  
  
# 使用 'last' 参数删除重复行  
df_no_duplicates_last = df.drop_duplicates(keep='last')  
print("\n使用 'last' 参数删除重复行:")  
print(df_no_duplicates_last)  
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

司南锤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值