pythonpandas重复数据统计_pandas dataframe重复数据查看.判断.去重

本文详细介绍了使用Pandas DataFrame进行重复数据的检查,包括通过groupby和duplicated()方法来查看和判断重复数据,以及如何利用drop_duplicates()方法有效地去除重复数据。示例中展示了如何针对特定列进行操作,并解释了相关参数的用法。
摘要由CSDN通过智能技术生成

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

dataframe数据样本:

import pandas as pd

df = pd.DataFrame({'name':['苹果','梨','草莓','苹果'], 'price':[7,8,9,8], 'cnt':[3,4,5,4]})

namecntprice

0苹果 37

1 梨 4 8

2草莓 59

3苹果 68

>> 查看dataframe的重复数据

a = df.groupby('price').count()>1

price = a[a['cnt'] == True].index

repeat_df = df[df['price'].isin(price)]

>>duplicated()方法判断

1. 判断dataframe数据某列是否重复

flag = df.price.duplicated()

0 False

1 False

2 False

3 True

Name: price, dtype: bool

flag.any()结果为True (any等于对flag or判断)

flag.all()结果为False (all等于对flag and判断)

2. 判断dataframe数据整行是否重复

flag = df.duplicated()

判断方法同1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值