用python生成MD5并去重

     给每个文件生成一个MD5值,来对文件进行加密,是常用的文件校验方法,但是MD5的缺陷就是不能防止碰撞,
     所以不同文件生成的MD5可能是相同的,因此就需要进行去重操作。
    为方便演示,我用txt文件代替文件夹,用txt文件中的字符串代替文件夹中文件来生成MD5值并进行去重操作。

在这里插入图片描述
每个txt文件中有字符串,用于生成MD5值:
在这里插入图片描述
然后用代码生成MD5值并输出为文件,打印了一下字符串的数量和MD5的数量,两者是相同的:

import os
import hashlib
def md5sum(file_path,out_file):
    das=[]
    files=os.listdir(file_path)
    for fi in files:
        with open(os.path.join(file_path,fi),'rb') as fp:
            da=fp.readlines()
            das+=da
    print("一共有{}个字符串".format(len(das)))
    mymd5=[]
    for data in das:
        file_md5=hashlib.md5(data).hexdigest()
        mymd5.append(file_md5)
    print("一共生成{}个md5".format(len(mymd5)))

    with open(out_file,'w') as ff:
        for x in mymd5:
            ff.write(x)
            ff.write('\n')

if __name__=="__main__":
    ff="D:/test/ff"
    fo="D:/test/fo"
    md5sum(ff,fo)

output:

一共有322个字符串
一共生成322个md5

生成的MD5文件内容就是128位的MD5值,每个值一行:
在这里插入图片描述
接下来对这些MD5进行去重操作,运行程序,会自动生成一个txt文件并将去重后的MD5写入。

import os
path="D/test/te.txt"
with open(path) as ff:
    tmp=ff.readlines()
tt=set(tmp)
print("去重后有{}个MD5".format(len(tt)))
filepath="D/test/fileout.txt"
with open(filepath,'w') as ff:
    for t in tt:
        ff.write(t)

output:

去重后有180个MD5

小白入门,欢迎评论交流!

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值