【数据挖掘】利用md5查找重复文件

【数据挖掘】利用md5查找重复文件

  电脑经过长时间的使用,难免会存留许多重复文件。这些重复文件往往四散在各处,其文件名、修改时间等信息都有改动,这对我清理重复文件造成了困扰。尽管重复文件已经有了诸多修改,但是这些修改仅仅作用于文件头,真正的文件数据没有修改过,因此我可以通过比较磁盘上的文件的文件数据,来找到重复的文件。
  为了查找重复文件,我需要比较文件的文件数据。我比较两个文件异同,通常做法是读入两个文件的数据到内存,然后一一比对。如果我有大批量文件要查重,读入所有文件到内存是不可取的方法。如果我不需要获取文件之间的差别信息,而是用较小的摘要信息,来辨别两个文件是否完全相同,那么我们可以读入所有文件的摘要信息来比较文件异同,就是可行的。生成摘要信息的技术有md5,sha-1等,这里我们使用常见的md5技术:

  MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理。
  MD5算法具有以下特点:
1、压缩性:任意长度的数据,算出的MD5值长度都是固定的。
2、容易计算:从原数据计算出MD5值很容易。
3、抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。
4、强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

  从md5的资料可以知道,两个文件的数据就算有一丁点差异,生成的md5码都有很大差别,因此只能用md5码来找完全相同的文件,而不能找相似的文件。
  python语言的hashlib库已经带有简单方便的md5生成器,生成的md5与文件头无关。我可以用python的os.path.walk函数找到我需要查重的文件集合,然后逐一生成md5码。由于重复文件之间的路径可能相隔很远,我们需要根据md5码的结果对文件进行排序。重复文件由于md5码相同,排序之后就紧邻在一起,于是我就找到了相同的文件。除了排序之外,我还可以使用python的defaultdict字典数据结构,在生成md5的同时构建好有序字典。defaultdict类似于C++的multimap,每一个key可以对应多个value。我设置md5码为defaultdict的key,文件路径为value。如果多个文件生成同一个md5码,那么该md5在defaultdict中对应的value就包含这些重复文件的路径。遍历构建好的defaultdict,我们就找到了所有的重复文件。

https://github.com/artzers/Python-Tools/blob/master/DeleteRepeatFiles.py

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值