【pandas 重复值的处理】

当数据中出现了重复值,在大多数情况下需要进行删除

namescore
agou99.0
someone78.0
agou99.0
ahua89.0

Pandas提供了两个函数专门用来处理数据中的重复值,分别为duplicated()drop_duplicates()方法。

  • duplicated()方法用于标记是否有重复值
  • drop_duplicates()方法用于删除重复值
  • 它们的判断标准是一样的,即只要两条数据中所有条目的值完全相等,就判断为重复值

duplicated()方法的语法格式如下:

duplicated(subset=None, keep='first')
  • subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。
  • keep删除重复项保留第一次出现的项,取值可以为firstlastFalse

duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变数据则变为标记的布尔值。

对于duplicated()方法,这里有如下两点要进行强调

  • 只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。
  • duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。

drop_duplicates()方法的语法格式如下:

drop_duplicates(subset=None, keep='first', inplace=False)

上述方法中,inplace参数接收一个布尔类型的值,表示是否替换原来的数据,默认为False

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值