给每个文件生成一个MD5值,来对文件进行加密,是常用的文件校验方法,但是MD5的缺陷就是不能防止碰撞,
所以不同文件生成的MD5可能是相同的,因此就需要进行去重操作。
为方便演示,我用txt文件代替文件夹,用txt文件中的字符串代替文件夹中文件来生成MD5值并进行去重操作。
每个txt文件中有字符串,用于生成MD5值:
然后用代码生成MD5值并输出为文件,打印了一下字符串的数量和MD5的数量,两者是相同的:
import os
import hashlib
def md5sum(file_path,out_file):
das=[]
files=os.listdir(file_path)
for fi in files:
with open(os.path.join(file_path,fi),'rb') as fp:
da=fp.readlines()
das+=da
print("一共有{}个字符串".format(len(das)))
mymd5=[]
for data in das:
file_md5=hashlib.md5(data).hexdigest()
mymd5.append(file_md5)
print("一共生成{}个md5".format(len(mymd5)))
with open(out_file,'w') as ff:
for x in mymd5:
ff.write(x)
ff.write('\n')
if __name__=="__main__":
ff="D:/test/ff"
fo="D:/test/fo"
md5sum(ff,fo)
output:
一共有322个字符串
一共生成322个md5
生成的MD5文件内容就是128位的MD5值,每个值一行:
接下来对这些MD5进行去重操作,运行程序,会自动生成一个txt文件并将去重后的MD5写入。
import os
path="D/test/te.txt"
with open(path) as ff:
tmp=ff.readlines()
tt=set(tmp)
print("去重后有{}个MD5".format(len(tt)))
filepath="D/test/fileout.txt"
with open(filepath,'w') as ff:
for t in tt:
ff.write(t)
output:
去重后有180个MD5
小白入门,欢迎评论交流!