python三秒搞定两个文件百万行数据差异对比

日常工作中,有可能需要对比两个文件的数据差异,在大量数据的情况下,常用的办法是使用数据库对比,现推荐一个使用python脚本对比数据的方法,实际测试,文件1有60万行数据,文件2有50万行数据,对比差异耗时1.5S,大大节省了对比数据的耗时,在数据库里加索引的情况下,也需要7S左右出结果,所以python是无比神奇的。。。。。

import argparse
import sys
import time
import datetime

##################wirten by zhouxu####################################
# 使用方法
#需要安装python3.6及以上版本
#1、将脚本和要对比的文本文件放到同一个目录下
#2、将两个需要对比的文本转为UTF-8格式
#3、在cmd命令行模式下执行:python diff_file.py -f1 1.txt -f2 2.txt
###################1.txt 和 2.txt是要对比的文本文件#######################
def readfile(filename):
    try:
        with open(filename, 'r',encoding='UTF-8') as fileHandle:
            text = fileHandle.read().splitlines()
            #print(text)
        return text
    except IOError as e:
        print("Read file Error:", e)
        sys.exit()

def diff_file(filename1, filename2):
    text1_lines = readfile(filename1)
    text2_lines = readfile(filename2)
    with open('result1.txt', 'w', encoding='UTF-8') as resultfile:
        resultfile.write('--------------文件1与文件2的差异-------------------'+'\n')
        diff_set = set(text1_lines).difference(set(text2_lines))
        for i in diff_set:
            resultfile.write(str(i)+'\n')
    with open('result2.txt', 'w', encoding='UTF-8') as resultfile2:
        resultfile2.write('--------------文件2与文件1的差异-------------------' + '\n')
        diff_set2 = set(text2_lines).difference(set(text1_lines))
        for j in diff_set2:
            resultfile2.write(str(j) + '\n')

if __name__ == '__main__':
    parser = argparse.ArgumentParser(description="传入两个文件参数")
    parser.add_argument('-f1', action='store', dest='filename1', required=True)
    parser.add_argument('-f2', action='store', dest='filename2', required=True)
    given_args = parser.parse_args()
    filename1 = given_args.filename1
    filename2 = given_args.filename2
    begin = datetime.datetime.now()
    print('任务开始:'+ str(begin))
    diff_file(filename1, filename2)
    end = datetime.datetime.now()
    print('任务结束,耗时:'+ str((end-begin)))

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值