python集合筛查重复数据

最新推荐文章于 2024-08-07 14:24:55 发布

qq_42083847

最新推荐文章于 2024-08-07 14:24:55 发布

阅读量1.6k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_42083847/article/details/105700982

版权

python 专栏收录该内容

3 篇文章

订阅专栏

目的是筛查出两列里面的重复数据，当然可以用EXCEL里面的countif函数，这里提供一种使用python集合来筛查的方法：

import pandas as pd   # 这里用到了pandas库
df1 = pd.read_excel(‘表格1的路径’,converters={'筛选的列':str})  # 有一些数据为首位为0的数字格式的文本，因此需要转换一下。
df2 = pd.read_excel(‘表格2的路径’,converters={'筛选的列':str})
set1 = set(list(df1['交易编码']))  # 直接将对应的列转换为集合
set2 = set(list(df2['交易编码'])) 
lis = list(set1^set2)  # 用求交集的符号^,然后将其直接转换为列表
for i in lis:         # 逐个将其打印出来
    if isinstance(i,str):
        print(i)