df.drop_duplicates(subset=None, keep='first', inplace=False)
subset是columns
默认 keep='first’保留第一个
inplace默认False,保留一个副本
print('删除重复值前:',salesDf.shape)
'''
总消费次数:同一天内,同一个人发生的所有消费算作一次消费
#根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条,将重复的数据删除
'''
kpi1_Df=salesDf.drop_duplicates(subset=['销售时间', '社保卡号'])
print('删除重复值后:',kpi1_Df.shape)
删除重复值前: (6506, 7)
删除重复值后: (5342, 7)