import pandas as pd
'''
df.duplicated(subset = None,keep='first')
subset: 可以指定列
keep :标记重复值
first:除第一次出现标记为True
last:除最后一次标记为True
False:将所有的重复值标记为True
'''
"\ndf.duplicated(subset = None,keep='first')\nsubset: 可以指定列\nkeep :标记重复值 \n first:除第一次出现标记为True\n last:除最后一次标记为True\n False:将所有的重复值标记为True\n"
df = pd.DataFrame(
{'A':[1,1,1],'B':[1,1,1],'C':[1,1,4]})
df
df.duplicated()
0 False
1 True
2 False
dtype: bool
df.duplicated(keep='last')
0 True
1 False
2 False
dtype: bool
df.duplicated(subset=['A'])
0 False
1 True
2 True
dtype: bool
df[df.duplicated()]
'''
df.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)
subset: 可以指定列
keep :标记重复值
first:保留第一次出现重复值
last:保留最后一次出现重复值
False:删除所有重复值
inplace: 是否对列表生效,若为True则表内容改变
ignore_index:True,重新匹配自然索引。
'''
"\n df.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)\n subset: 可以指定列\n keep :标记重复值 \n first:保留第一次出现重复值\n last:保留最后一次出现重复值\n False:删除所有重复值\n inplace: 是否对列表生效,若为True则表内容改变\n ignore_index:True,重新匹配自然索引。\n \n"
df
df.drop_duplicates()
df.drop_duplicates(subset=['A'])
df
'''
df.drop(labels=None,axis=0,index=None,columns=None,
level=None,inplace=False,error='raise')
labels:要删除的列和行
axis:0为行,1 为列
index:指定的行或者多行
column:指定的一列或者多列
level:索引层级,将删除层级
inplace:布尔值
errors:ignore或者raise,ignore,容忍错误,删除现有标签
'''
"\ndf.drop(labels=None,axis=0,index=None,columns=None,\n level=None,inplace=False,error='raise')\n labels:要删除的列和行\n axis:0为行,1 为列\n index:指定的行或者多行\n column:指定的一列或者多列\n level:索引层级,将删除层级\n inplace:布尔值\n errors:ignore或者raise,ignore,容忍错误,删除现有标签\n"
df
df.drop([0,1])
df.drop(['B','C'],axis=1)