【pandas 重复值的处理】

最新推荐文章于 2024-06-18 22:11:25 发布

一杯冰糖

最新推荐文章于 2024-06-18 22:11:25 发布

阅读量3.9k

点赞数 3

分类专栏： pandas 文章标签： python

本文链接：https://blog.csdn.net/qq_45186086/article/details/125221095

版权

16 篇文章 8 订阅

订阅专栏

当数据中出现了重复值，在大多数情况下需要进行删除。

Pandas提供了两个函数专门用来处理数据中的重复值，分别为duplicated()和drop_duplicates()方法。

duplicated()方法的语法格式如下：

duplicated(subset=None, keep='first')

duplicated()方法用于标记Pandas对象的数据是否重复，重复则标记为True，不重复则标记为False，所以该方法返回一个由布尔值组成的Series对象，它的行索引保持不变，数据则变为标记的布尔值。

对于duplicated()方法，这里有如下两点要进行强调：

只有数据表中两个条目间所有列的内容都相等时，duplicated()方法才会判断为重复值。
duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式，默认是从前向后查找判断重复值的。换句话说，就是将后出现的相同条目判断为重复值。

drop_duplicates()方法的语法格式如下：

drop_duplicates(subset=None, keep='first', inplace=False)

上述方法中，inplace参数接收一个布尔类型的值，表示是否替换原来的数据，默认为False。

关注

专栏目录