使用python-pandas对比两个结构相同的文件差异，并输出差集文件的方法

花生君

已于 2024-02-04 13:46:45 修改

阅读量484

点赞数 4

分类专栏：经验分享文章标签： pandas 功能测试

于 2024-02-02 16:22:46 首次发布

本文链接：https://blog.csdn.net/m0_54701273/article/details/135995384

版权

经验分享专栏收录该内容

60 篇文章 5 订阅

订阅专栏

本文介绍了如何使用Pandas库处理两个CSV文件（fileA.csv和fileB.csv），通过合并并筛选出仅存在于fileA中的数据，生成新的文件fileC，展示了Pandas在数据处理中的强大功能。

摘要由CSDN通过智能技术生成

最近在处理数据相关需求，遇到一个问题：两个文件，fileA.csv和fileB.csv，结构相同，fileA包含fileB的内容，但是需要得到二者的差集，输出新的文件fileC。

经过查询资料，发现pandas可以很好的处理数据相关需求，经常处理大数据的小伙伴对这个神器肯定不陌生。

我第一次接触，所以记录一下使用经历，以后再遇到类似需求，可以多研究下。

import pandas as pd

# 读取文件 A
dataA = pd.read_csv('./temp/fileA.csv')

# 读取文件 B
dataB = pd.read_csv('./temp/fileB.csv')

# 合并数据框，并标记每个值的来源，注：Column1,Column2 为csv文件的列名，即文件首行数据的值
merged = dataA.merge(dataB, on=['Column1', 'Column2'], how='left', indicator=True)

# 筛选出只在文件 A 中存在的行
diff = merged[merged['_merge'] == 'left_only']

# 删除标记列
diff = diff.drop('_merge', axis=1)

# 将差值写入新文件 C
diff.to_csv('./temp/fileC.csv', index=False)

简单解释下上面的代码：

1. 读取文件 fileA 和 fileB的内容

2. 使用 merge() 函数将文件 A 和文件 B 按照Column1和Column2列进行合并

on=['Column1', 'Column2'] 合并的列名称

how='left' 表示以左边的数据为准（即fileA数据），这个参数可以理解为SQL中的left join

indicator=True 用来标记文件中每个值的来源

3. 通过标记列 _merge，筛选出只在文件 A 中存在的行

4. 删除标记列 _merge

5. 将差集结果写入新的 CSV 文件 fileC

同理，pandas还可以处理excel、txt文本等文件，具体的处理方法，感兴趣的小伙伴可以自己搜索下。