【Python】利用MD5文件去重

【Python】利用MD5文件去重

事情起因 :我的很多照片之前迁移到了阿里云盘进行备份,但是久而久之上次发现重复了很多,这就让我很是苦恼,手动删除实在太慢了。阿里云盘里面是有清理重复照片功能的,但是却告知我重复数量为0,简直是虚假功能。IOS16里面新增了重复照片清理功能,可是系统还不稳定,就降级15了。

综上原因,不得已写一个吧。

说一下实现,每一个文件及其副本,他们无论文件名是否相同,计算出来的MD5值是相同的。因为文件的MD5是计算的是文件流的,与文件名无关。基于此,再加上HashMap的特性,我们用每一个文件MD5来作为Key,他们的文件名作为Value,那么自然Key重复后也就意味着文件一致。

此处做的重复文件处理是放到了另一个文件夹,以便于后期核实,当然亦可直接删除。

再说一下使用Python的原因。操作系统中本身都支持文件的MD5计算,但是我也懒,Java里面还需要自己实现以下(好像也有直接的工具类),但对我这懒人来说,懒得做。相较而言,Python实现起来,较为简单。

再补充一下中间有一段比较文件名长短的判断,原因是相机本身一般依据时间设置文件名,而其他系统or软件在生成副本时候一般添加"副本"二字或者直接使用一段随机字符串,我们一般称之为UUID,来作为副本文件的文件名。所以对于此处我只需要对比一下长短即可应付多数情况。

步入正题,放代码:

注意:是同一个目录下重复的文件,不支持多个目录。你可以拿去改,对我来说用不到。

import os
import hashlib
import shutil

if __name__ == '__main__':
    # 存放文件的目录地址,不要遗落最后的\\, Linux or Mac需要换分隔符
    source_path = "C:\\Users\\BigBaby\\Documents\\DCIM\\"
    # 设置重复文件存放的目录
    repeat_file_path = "C:\\Users\\BigBaby\\Documents\\repeats\\"
    file_list = os.listdir(source_path)

    files_map = {}
    index = 1
    repeat_num = 0

    for file in file_list:
        print("第【" + str(index) + "】个开始处理 --> " + file)
        index += 1

        with open(source_path + file, 'rb') as file_pointer:
            data = file_pointer.read()
        file_md5 = hashlib.md5(data).hexdigest()
        file_pointer.close()

        if files_map.get(file_md5) is None:
            files_map[file_md5] = file
        else:
            print("发现重复文件: " + file + "  -->  " + files_map[file_md5])
            if len(files_map[file_md5]) < len(file):
                shutil.move(source_path + file, repeat_file_path + file)

            else:
                temp_file = files_map[file_md5]
                files_map[file_md5] = file
                shutil.move(source_path + temp_file, repeat_file_path + temp_file)
            repeat_num += 1

    print("********处理完成********")
    print("重复数量 --> " + str(repeat_num))

效果图:
在这里插入图片描述

剩下的照片处理后截图我就不放出来了。

Bye!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我姥爷是校长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值