python 判断两列有重复数据_Python-基于两列组合删除数据框中的重复项？

最新推荐文章于 2021-09-22 22:12:01 发布

weixin_39735012

最新推荐文章于 2021-09-22 22:12:01 发布

阅读量399

点赞数

文章标签： python 判断两列有重复数据

这个问题我很晚才知道，但无论如何都要给我的贡献:)

您还可以使用get_dummies和add作为创建可哈希行的好方法

df[~(pd.get_dummies(df.a).add(pd.get_dummies(df.b), fill_value=0)).duplicated()]

时间不如@Wen的答案，但仍然比apply+frozen_set

df=pd.concat([df]*1000000)

%timeit df[~(pd.get_dummies(df.a).add(pd.get_dummies(df.b), fill_value=0)).duplicated()]

1.8 s ± 85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df[pd.DataFrame(np.sort(df[['a','b']].values,1)).duplicated()]

1.26 s ± 19 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df[~df[['a', 'b']].apply(frozenset, axis=1).duplicated()]

1min 9s ± 684 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注