【数据挖掘】利用md5查找重复文件

最新推荐文章于 2024-08-12 14:46:59 发布

artzers

最新推荐文章于 2024-08-12 14:46:59 发布

阅读量7.5k

点赞数

分类专栏： python 数据挖掘文章标签：数据挖掘 md5 数据 python

本文链接：https://blog.csdn.net/lpsl1882/article/details/51506652

版权

python 同时被 2 个专栏收录

32 篇文章 2 订阅

订阅专栏

数据挖掘

9 篇文章 0 订阅

订阅专栏

【数据挖掘】利用md5查找重复文件

电脑经过长时间的使用，难免会存留许多重复文件。这些重复文件往往四散在各处，其文件名、修改时间等信息都有改动，这对我清理重复文件造成了困扰。尽管重复文件已经有了诸多修改，但是这些修改仅仅作用于文件头，真正的文件数据没有修改过，因此我可以通过比较磁盘上的文件的文件数据，来找到重复的文件。
为了查找重复文件，我需要比较文件的文件数据。我比较两个文件异同，通常做法是读入两个文件的数据到内存，然后一一比对。如果我有大批量文件要查重，读入所有文件到内存是不可取的方法。如果我不需要获取文件之间的差别信息，而是用较小的摘要信息，来辨别两个文件是否完全相同，那么我们可以读入所有文件的摘要信息来比较文件异同，就是可行的。生成摘要信息的技术有md5，sha-1等，这里我们使用常见的md5技术：

MD5即Message-Digest Algorithm 5（信息-摘要算法5），用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一（又译摘要算法、哈希算法），主流编程语言普遍已有MD5实现。将数据（如汉字）运算为另一固定长度值，是杂凑算法的基础原理。
MD5算法具有以下特点：
1、压缩性：任意长度的数据，算出的MD5值长度都是固定的。
2、容易计算：从原数据计算出MD5值很容易。
3、抗修改性：对原数据进行任何改动，哪怕只修改1个字节，所得到的MD5值都有很大区别。
4、强抗碰撞：已知原数据和其MD5值，想找到一个具有相同MD5值的数据（即伪造数据）是非常困难的。

从md5的资料可以知道，两个文件的数据就算有一丁点差异，生成的md5码都有很大差别，因此只能用md5码来找完全相同的文件，而不能找相似的文件。
python语言的hashlib库已经带有简单方便的md5生成器，生成的md5与文件头无关。我可以用python的os.path.walk函数找到我需要查重的文件集合，然后逐一生成md5码。由于重复文件之间的路径可能相隔很远，我们需要根据md5码的结果对文件进行排序。重复文件由于md5码相同，排序之后就紧邻在一起，于是我就找到了相同的文件。除了排序之外，我还可以使用python的defaultdict字典数据结构，在生成md5的同时构建好有序字典。defaultdict类似于C++的multimap，每一个key可以对应多个value。我设置md5码为defaultdict的key，文件路径为value。如果多个文件生成同一个md5码，那么该md5在defaultdict中对应的value就包含这些重复文件的路径。遍历构建好的defaultdict，我们就找到了所有的重复文件。

https://github.com/artzers/Python-Tools/blob/master/DeleteRepeatFiles.py