drop_duplicates(subset,keep,inplace,ignore_index)
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
subset:
列的标签,或者传入一个标签列表,subset=[‘a’,‘b’]这种,只有指定列都重复的时候才会删除。
keep:
选择需要保留的重复值,有三个选项, - first:保留第一次出现的行; - last:保留最后一次出现 的行; - False:全删掉
inplace:
传入布尔值,执行删除后,是否把结果赋值给原变量。比如df.drop_duplicates()之后,你可以选择将结果赋值给新的变量data=df.drop_duplicates(),也可以通过inplace参数,df.drop_duplicates(inplace=True),自动将结果赋值给df。
ignore_index:
传入布尔值,默认是False,就是是否重置索引,从0开始往下排。