python之重复值(duplicated)

Duplicated函数功能:查找并显示数据表中的重复值

这里需要注意的是:

  • 当两条记录中所有的数据都相等时duplicated函数才会判断为重复值
  • duplicated支持从前向后(first),和从后向前(last)两种重复值查找模式
  • 默认是从前向后进行重复值的查找和判断,也就是后面的条目在重复值判断中显示为True

1.查询重复值的位置

data.duplicated()   #返回布尔型数据,告诉重复值的位置

2.检查有多少重复值

data.duplicated().sum() #说明有4个重复值

3.打印重复值

data[data.duplicated()]#打印重复值
或者
data[data.duplicated()==True]#打印重复值

 4.打印非重复值

data[data.duplicated()==False]#打印重复值

 5.删除重复记录(drop_duplicates())

#inplace=True表示直接在源数据上进行操作
data.drop_duplicates(inplace=True) 

6.重置索引reset_index

data.reset_index()

Python 中可以使用 Pandas 库来进行重复处理。Pandas 提供了一些函数和方法,可以方便地去除重复。 下面是一个简单的示例代码: ```python import pandas as pd # 创建一个 DataFrame data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'], 'age': [25, 30, 35, 25], 'gender': ['Female', 'Male', 'Male', 'Female']} df = pd.DataFrame(data) # 查找重复duplicates = df[df.duplicated()] # 删除重复行 df.drop_duplicates(inplace=True) # 打印结果 print("原始数据:") print(df) print("重复数据:") print(duplicates) ``` 在代码中,首先创建了一个 DataFrame,其中包含一些重复行。接着使用 `df.duplicated()` 函数来查找重复行,将其保存到 `duplicates` 变量中。然后使用 `df.drop_duplicates()` 方法来删除重复行,由于 `inplace=True`,所以会直接修改原始的 DataFrame。最后打印出结果,可以看到重复行已经被删除了。 需要注意的是,`drop_duplicates()` 方法默认会保留第一个出现的重复行,如果需要保留最后一个或者全部重复行,可以使用 `keep` 参数来指定。例如: ```python # 保留最后一个重复行 df.drop_duplicates(keep='last', inplace=True) # 保留全部重复行 df.drop_duplicates(keep=False, inplace=True) ``` 如果需要根据指定的列进行重复处理,可以使用 `subset` 参数来指定列名,例如: ```python # 根据 name 和 age 列进行重复处理 df.drop_duplicates(subset=['name', 'age'], inplace=True) ``` 这样就可以根据指定的列进行重复处理了。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值