Pandas.drop_duplicates——去除重复项

最新推荐文章于 2024-02-27 15:05:39 发布

weixin_43139613

最新推荐文章于 2024-02-27 15:05:39 发布

阅读量480

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_43139613/article/details/83692440

版权

笔记专栏收录该内容

105 篇文章 1 订阅

订阅专栏

df.drop_duplicates(subset=None, keep='first', inplace=False)

subset是columns
默认 keep='first’保留第一个
inplace默认False，保留一个副本

print('删除重复值前：',salesDf.shape)
'''
总消费次数：同一天内，同一个人发生的所有消费算作一次消费
#根据列名（销售时间，社区卡号），如果这两个列值同时相同，只保留1条，将重复的数据删除
'''
kpi1_Df=salesDf.drop_duplicates(subset=['销售时间', '社保卡号'])
print('删除重复值后：',kpi1_Df.shape)

删除重复值前： (6506, 7)
删除重复值后： (5342, 7)