2021-11-01

寻找两个dataframe中相同关键列中元素的差集

问题

有以下两个数据集,df1、df2,其中df1的VendorName和df2的VendorName的特征是相同的,现在要找出特征在df1中但是不在df2中的集合。
df1
df2

#找到交集
df_transactions_IN = df_transactions[df_transactions["VendorName"].isin(df_approved["VendorName"])]
#找df_1 - df_2 差集
df_unapproved = df_transactions.append(df_transactions_IN).append(df_transactions_IN).drop_duplicates(subset=['VendorName'],keep=False)
#找差集,不去重的差集
df_FAIL_OUT = df_FAIL[~ df_FAIL["SerialNumber"].isin(df2["SN"])]

解决思路是这样的:

对于有同样Index的a,b两个DataFrame,如果现在要求a对b的差集,那么可以(1)连续两次扩充a,使用append方法(2)然后使用drop_duplicates方法对a进行去重,并且参数keep=False。原理很简单,也很巧妙,连续扩充2次a,那么新扩充完后的DataFrame中来自b的row肯定是重复的,去重时候,b全部被删除,与此同时,a中跟b重复的row也会顺带着被删除。

参考链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值