duplicate

m0_50889751

于 2022-08-03 10:25:13 发布

阅读量161

点赞数

文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/m0_50889751/article/details/126135428

版权

本文介绍了如何使用pandas在Python中识别和处理重复值，包括df.duplicated()函数的用法、不同keep选项的解释，以及drop_duplicates()方法删除重复数据，针对列和整行操作进行了详细说明。

摘要由CSDN通过智能技术生成

import pandas as pd
#1.   重复值识别
'''
df.duplicated(subset = None,keep='first')
subset: 可以指定列
keep :标记重复值 
      first:除第一次出现标记为True
      last:除最后一次标记为True
      False:将所有的重复值标记为True
'''

"\ndf.duplicated(subset = None,keep='first')\nsubset: 可以指定列\nkeep :标记重复值 \n      first:除第一次出现标记为True\n      last:除最后一次标记为True\n      False:将所有的重复值标记为True\n"

df = pd.DataFrame(
                 {'A':[1,1,1],'B':[1,1,1],'C':[1,1,4]})
df

	A	B	C
0	1	1	1
1	1	1	1
2	1	1	4

df.duplicated()

0    False
1     True
2    False
dtype: bool

# 将keep='last'
df.duplicated(keep='last')

0     True
1    False
2    False
dtype: bool

# 指定列是否重复
df.duplicated(subset=['A']) # 检测‘A’列是否有重复

0    False
1     True
2     True
dtype: bool

# 筛选出重复内容
df[df.duplicated()]

	A	B	C
1	1	1	1

# 2. 删除重复值
'''
   df.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)
   subset: 可以指定列
   keep :标记重复值 
      first:保留第一次出现重复值
      last:保留最后一次出现重复值
      False:删除所有重复值
   inplace: 是否对列表生效，若为True则表内容改变
   ignore_index:True,重新匹配自然索引。
      
'''

"\n   df.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)\n   subset: 可以指定列\n   keep :标记重复值 \n      first:保留第一次出现重复值\n      last:保留最后一次出现重复值\n      False:删除所有重复值\n   inplace: 是否对列表生效，若为True则表内容改变\n   ignore_index:True,重新匹配自然索引。\n      \n"

df

	A	B	C
0	1	1	1
1	1	1	1
2	1	1	4

df.drop_duplicates()

	A	B	C
0	1	1	1
2	1	1	4

 df.drop_duplicates(subset=['A'])#  删除'A' 中有重复的行

	A	B	C
0	1	1	1

df

	A	B	C
0	1	1	1
1	1	1	1
2	1	1	4

# 3.删除数据
'''
df.drop(labels=None,axis=0,index=None,columns=None,
        level=None,inplace=False,error='raise')
   labels:要删除的列和行
   axis:0为行，1 为列
   index:指定的行或者多行
   column：指定的一列或者多列
   level:索引层级，将删除层级
   inplace:布尔值
   errors:ignore或者raise，ignore，容忍错误，删除现有标签
'''

"\ndf.drop(labels=None,axis=0,index=None,columns=None,\n        level=None,inplace=False,error='raise')\n   labels:要删除的列和行\n   axis:0为行，1 为列\n   index:指定的行或者多行\n   column：指定的一列或者多列\n   level:索引层级，将删除层级\n   inplace:布尔值\n   errors:ignore或者raise，ignore，容忍错误，删除现有标签\n"

df

	A	B	C
0	1	1	1
1	1	1	1
2	1	1	4

df.drop([0,1]) #删除指定行

	A	B	C
2	1	1	4

df.drop(['B','C'],axis=1) #删除指定的列

	A
0	1
1	1
2	1

m0_50889751

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫