数据分析之重复值处理

最新推荐文章于 2022-09-09 17:20:28 发布

JING先生

最新推荐文章于 2022-09-09 17:20:28 发布

阅读量2.7k

点赞数 1

本文链接：https://blog.csdn.net/bj_109/article/details/84889722

版权

最常用drop_duplicates()函数，它把行相同的多余的重复的数据去除，直接在对象中使用该函数即可，它会返回去除重复值后的对象。

df = pd.DataFrame({'A': [1, 2, 1, 4, 5],
                   'B': [5, 6, 5, 8, 9],
                   'C': [1, 2, 1, 4, 5],
                   'D': [2, 6, 2, 0, 3],
                   'E': [8, 5, 8, 3, 2]})

在这里插入图片描述

找出行重复的位置

df_index = df.duplicated()
df_index

在这里插入图片描述

找出某一列的重复值的位置

df_index1 = df.duplicated(subset='C')
df_index1

在这里插入图片描述

df_index2 = df.duplicated(subset=['C', 'D'])
df_index2

在这里插入图片描述

把重复值所在行提取出来

df[df_index]

在这里插入图片描述

直接删除重复值所在行

newDF = df.drop_duplicates()
newDF

在这里插入图片描述

根据某一列删除重复值

newDF1 = df.drop_duplicates('C')
newDF1

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JING先生

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据分析之重复值处理

最常用drop_duplicates()函数，它把行相同的多余的重复的数据去除，直接在对象中使用该函数即可，它会返回去除重复值后的对象。df = pd.DataFrame({'A': [1, 2, 1, 4, 5], 'B': [5, 6, 5, 8, 9], 'C': [1, 2, 1, 4, 5], ...
复制链接

扫一扫