基于python和md5的相同图片查重

通过爬虫获取的互联网图片,下载下来之后有一些是重复的,人眼检查的话费时费力,而且也很难查全。本文通过计算并比对图片的md5值来判断是否为重复图片,以备后用。

MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。

python代码如下:

import os
import shutil
import hashlib


# 计算每张图像的md5值
def compute_md5(image_path):
    img = open(image_path, 'rb')
    md5 = hashlib.md5(img.read())
    img.close()
    md5_values = md5.hexdigest()

    return md5_values


# 存储md5值的list
md5_list = []

# 存储重复图片的路径
result_dir = "results"
os.makedirs(result_dir, exist_ok=True)

# 待查重图片路径
imag
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值