两秒对比100万数据差异

本文介绍了一种使用Python脚本高效对比两个大型文本文件数据差异的方法,实测60万行与50万行数据的对比仅需1.5秒,远快于数据库加索引的7秒。该脚本通过读取文件、转换为UTF-8格式并利用集合差异计算差异,生成结果文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

     日常工作中,有可能需要对比两个文件的数据差异,在大量数据的情况下,常用的办法是使用数据库对比,现推荐一个使用python脚本对比数据的方法,实际测试,文件一有60万行数据,文件2有50万行数据,对比差异耗时1.5S,大大节省了对比数据的耗时,在数据库里加索引的情况下,也需要7S左右出结果,所以python是无比神奇的。


代码:

import argparse
import sys
import time
import datetime


##################wirten by diorlitao####################################
# 使用方法
#需要安装python3.6及以上版本
#1、将脚本和要对比的文本文件放到同一个目录下
#2、将两个需要对比的文本转为UTF-8格式
#3、在cmd命令行模式下执行:python diff_file.py -f1 1.txt -f2 2.txt
###################1.txt 和 2.txt是要对比的文本文件#######################
def readfile(filename):
    try:
        with open(filename, 'r',encoding='UTF-8') as fileHandle:
            text = fileHandle.read().splitlines()
            #print(text)
        return text
    except IOError as e:
        print("Read file E

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值