pandas处理重复值

最新推荐文章于 2022-06-26 15:45:00 发布

Dream丶Killer

最新推荐文章于 2022-06-26 15:45:00 发布

阅读量1.3k

点赞数 2

分类专栏： Python数据分析 Python基础文章标签： python 数据分析 pandas 去重

本文链接：https://blog.csdn.net/qq_43965708/article/details/115261822

版权

Python数据分析同时被 2 个专栏收录

29 篇文章 36 订阅

订阅专栏

Python基础

19 篇文章 34 订阅

订阅专栏

示例数据：

import pandas as pd

df = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]})
df

在这里插入图片描述

仅判断单列是否有重复值

使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列，只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。

df['a'].value_counts()

在这里插入图片描述

使用drop_duplicates()对重复值进行删除，只保留第一次出现的值，判断处理后的值是否与原df相等，如果False就表示有重复值。

df.equals(df.drop_duplicates(subset=['a'], keep='first'))

False

判断所有列是否有重复行
同样是使用drop_duplicates()对重复值进行删除，只保留第一次出现的值，此时不适用subset参数设置列，默认为全部列，判断处理后的值是否与原df相等，如果False就表示有重复值。

df.equals(df.drop_duplicates(keep='first'))

False

统计重复行的数量

len(df) - len(df.drop_duplicates(keep="first"))

显示重复的数据行
先删除重复的行，只保留第一次出现的，得到一个行唯一的数据集，再使用drop_duplicates()删除掉df中存在重复的所有数据，这次不保留第一次出现的重复值，将上述两个结果集进行合并，使用drop_duplicates()对新生成的数据集进行去重，即可得到重复行的数据。

df.drop_duplicates(keep="first").append(df.drop_duplicates(keep=False)).drop_duplicates(keep=False)

在这里插入图片描述

Dream丶Killer

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
pandas处理重复值

示例数据：import pandas as pddf = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]})df仅判断单列是否有重复值使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列，只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。df['a'].value_counts()使用drop_duplicates()对
复制链接

扫一扫