我们获取的数据往往会存在一些重复数据,重复数据会对统计结果产生影响,也会误导决策人员的决策。
那么对DataFrame的重复项判断及删除重复项是对数据整理的基本要求。
-
判断数据是否有重复项 df.duplicated()
df.duplicated(self,subset=None,keep='first')
-
可通过 drop_duplicates() 移除重复项
df.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
>>参数解释
-
subset:列标签或标签序列,可选,仅考虑某些列来标识重复项,默认情况下使用所有列
-
keep:{'first','last',False},默认为'first'
first: 只保留第一次出现的组合
last: 保留最后一次出现的组合
False: 将所有重复项标记为True
-
inplace:为True时表示