用python生成MD5并去重

最新推荐文章于 2024-01-31 10:04:00 发布

liulanba

最新推荐文章于 2024-01-31 10:04:00 发布

阅读量3k

点赞数 5

分类专栏： python业务类文章标签： python

本文链接：https://blog.csdn.net/liulanba/article/details/110679732

版权

python业务类专栏收录该内容

36 篇文章 11 订阅

订阅专栏

     给每个文件生成一个MD5值，来对文件进行加密，是常用的文件校验方法，但是MD5的缺陷就是不能防止碰撞，
     所以不同文件生成的MD5可能是相同的，因此就需要进行去重操作。
    为方便演示，我用txt文件代替文件夹,用txt文件中的字符串代替文件夹中文件来生成MD5值并进行去重操作。

在这里插入图片描述
每个txt文件中有字符串，用于生成MD5值：

然后用代码生成MD5值并输出为文件，打印了一下字符串的数量和MD5的数量，两者是相同的：

import os
import hashlib
def md5sum(file_path,out_file):
    das=[]
    files=os.listdir(file_path)
    for fi in files:
        with open(os.path.join(file_path,fi),'rb') as fp:
            da=fp.readlines()
            das+=da
    print("一共有{}个字符串".format(len(das)))
    mymd5=[]
    for data in das:
        file_md5=hashlib.md5(data).hexdigest()
        mymd5.append(file_md5)
    print("一共生成{}个md5".format(len(mymd5)))

    with open(out_file,'w') as ff:
        for x in mymd5:
            ff.write(x)
            ff.write('\n')

if __name__=="__main__":
    ff="D:/test/ff"
    fo="D:/test/fo"
    md5sum(ff,fo)

output:

一共有322个字符串
一共生成322个md5

生成的MD5文件内容就是128位的MD5值，每个值一行：
在这里插入图片描述
接下来对这些MD5进行去重操作，运行程序，会自动生成一个txt文件并将去重后的MD5写入。

import os
path="D/test/te.txt"
with open(path) as ff:
    tmp=ff.readlines()
tt=set(tmp)
print("去重后有{}个MD5".format(len(tt)))
filepath="D/test/fileout.txt"
with open(filepath,'w') as ff:
    for t in tt:
        ff.write(t)

output:

去重后有180个MD5

小白入门，欢迎评论交流！

liulanba

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
用python生成MD5并去重

给每个文件生成一个MD5值，来对文件进行加密，是常用的文件校验方法，但是MD5的缺陷就是不能防止碰撞，所以不同文件生成的MD5可能是相同的，因此就需要进行去重操作。为方便演示，我用txt文件代替文件夹,用txt文件中的字符串代替文件夹中文件来生成MD5值并进行去重操作。![在这里插入图片描述](https://img-blog.csdnimg.cn/20201205132030254.PNG#pic_center)然后用代码生成MD5值并输出为文件，打印了一下字符串的数量和MD5的数量，两者是相同.
复制链接

扫一扫