pandas 对比两个dataframe实现sql的‘not in‘的效果

最新推荐文章于 2022-10-27 21:34:52 发布

铲子挖数据

最新推荐文章于 2022-10-27 21:34:52 发布

阅读量1.2k

点赞数

分类专栏： python pandas 文章标签： python pandas

本文链接：https://blog.csdn.net/pycrossover/article/details/117439656

版权

python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

pandas

1 篇文章 0 订阅

订阅专栏

其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。😂
这种方式（百度看到的）应该跑起来挺快的，记录一下，下次实验一下。

import pandas as pd
df1=pd.DataFrame({'authorID':['12','34','56']})
df2=pd.DataFrame({'authorID':['12','56','78','97']})
original_users=set(df1[['authorID']].values.reshape(-1))
for i in df2[['authorID']].values.reshape(-1):
    if i not in original_users:
        print(i)

还有一种也是百度看到的，这个方式是把想对比的对象拼接在一起，然后把重复项删除。。还得拼两次，要不然把原本自己没有的项也带进来了，但是我觉得如果数据量一大起来，估计会卡死，这种弃用。

>>> import pandas as pd
>>> data_a={'state':[1,1,2],'pop':['a','b','c']}
>>> data_b={'state':[1,2,3],'pop':['b','c','d']}
>>> a=pd.DataFrame(data_a)
>>> b=pd.DataFrame(data_b)
>>> a
   state pop
0      1   a
1      1   b
2      2   c
>>> b
   state pop
0      1   b
1      2   c
2      3   d
>>> a=a.append(b)
>>> a=a.append(b)
>>> a
   state pop
0      1   a
1      1   b
2      2   c
0      1   b
1      2   c
2      3   d
0      1   b
1      2   c
2      3   d
>>> a.drop_duplicates(subset=['state','pop'],keep=False)
   state pop
0      1   a

铲子挖数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas 对比两个dataframe实现sql的‘not in‘的效果

其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。????这种方式（百度看到的）应该跑起来挺快的，记录一下，下次实验一下。import pandas as pddf1=pd.DataFrame({'authorID':['12','34','56']})df2=pd.DataFrame({'authorID':['12','56','78','97']})original_users=set(df1[['authorID']].values.reshape(-1))for
复制链接

扫一扫