Pyhton实现文本文档,单文件txt去重和双文件对比去重,G级以上的文件都没问题!

利用Python编写的程序可以处理G级别以上的txt文件进行单文件重复行去除,以及进行双文件对比去重操作。单文件5GB去重耗时不到1分钟,双文件对比去重速度也非常快。
摘要由CSDN通过智能技术生成

Python 写的 txt的单文件去重。 和 双文件对比去重,文件数据在G级别以上都没问题。

经测试,单文件去重5GB的txt仅需要不到1分钟。 双文件对比去重时间没有测试。也很快!

单文件去重代码

# -*- coding:utf-8 -*-
#! python2
import shutil
a=0
readDir = "E:/1.txt"  #old
writeDir = "E:/2.txt" #new
# txtDir = "/home/Administrator/Desktop/1"
lines_seen = set()
outfile = open(writeDir, "w")
f = open(readDir, "r")
for line in f:
  if line not in lines_seen:
    a+=1
    outfile.write(line)
    lines_seen.add(line)
    print(a)
    print('\n')
outfile.close()
print("success")

多文件对比去重

#!/usr/bin/env python 
# -*- coding:utf-8 -*-

def file_qc():
    str1 = []
    file_1 = open("1.txt","r",encoding="utf-8")
    for line in file_1.readlines():
        str1.append(line.replace("\n",""))

    str2 = []
    file_2 = open("2.txt", "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值