Python 计算MD5值 图片查重去重

本文介绍了MD5算法,它是用于文件唯一标识的哈希算法。在Python3中,MD5被包含在hashlib库中。示例代码展示了如何利用MD5检查文件夹中是否存在重复图片。
摘要由CSDN通过智能技术生成

MD5

MD5 即 Message-Digest Algorithm 5(信息-摘要算法5)。摘要算法又称哈希算法、散列算法。
它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。MD5 是从MD2、MD3 和 MD4 发展而来的一种加密算法,其主要通过采集文件的信息摘要,以此进行计算并加密。通过MD5算法进行加密,文件就可以获得一个唯一的 MD5 值,这个值是独一无二的,就像我们的指纹一样。[1]
在python3的标准库中,已经移除了md5,而关于hash加密算法都放在hashlib这个标准库中,如SHA1、SHA224、SHA256、SHA384、SHA512和MD5算法等。

code

以下给出判断两个文件夹是否有重复图片的例子

import json
import os
from hashlib import md5


def getmd5(image_path,md5_path):
    #得到所有图片的路径,加到列表images中
    files = os.listdir(image_path)
    files.pop(files.index('.DS_Store'))  # MAC
    images = [os.path.join(image_path,f) for f in files]

    #计算每张图片的md5值,并将{md5值:图片路径}整合到字典image_md5中
    image_md5 = {
   }
    for n in range
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值