我在采集图片样本的时候,发现很多图片都是重复的,所以就想着写一个查重的Python脚本。
import os import hashlib def checkmd5(path): f=open(path,'rb') content=f.read() M=hashlib.md5() M.update(content) return M.hexdigest() folder=input("请输入文件夹名字:") md5Lib={} md5toName={} for root,dirs,files in os.walk(folder): for file in files: filename=os.path.join(root,file) tempMD5 = checkmd5(filename) if not tempMD5 in md5Lib.values(): md5toName[tempMD5]=filename md5Lib[filename]=tempMD5 else: print(filename,'和',md5toName[tempMD5],'重复了')