1.df.duplicated(subset=None, keep=‘first’)
参数:
subset=None:列标签或标签序列
df.duplicated('a1')
df.duplicated(['a1','a2'])
keep=‘first’:{‘first’,‘last’,False}
# - first:将第一次出现重复值标记为True
# - last:将最后一次出现重复值标记为True
# - False:将所有重复项标记为True
2.df.drop_duplicates(subset=None, keep=‘first’,inplace=False)
参数:同上
inplace=False
False 为创建副本,原数据不替换
Ture 为替换原数据
重复值处理完后,index会有不连续,可通过reindex()方法可以完成连续索引操作