通过爬虫获取的互联网图片,下载下来之后有一些是重复的,人眼检查的话费时费力,而且也很难查全。本文通过计算并比对图片的md5值来判断是否为重复图片,以备后用。
MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。
python代码如下:
import os
import shutil
import hashlib
# 计算每张图像的md5值
def compute_md5(image_path):
img = open(image_path, 'rb')
md5 = hashlib.md5(img.read())
img.close()
md5_values = md5.hexdigest()
return md5_values
# 存储md5值的list
md5_list = []
# 存储重复图片的路径
result_dir = "results"
os.makedirs(result_dir, exist_ok=True)
# 待查重图片路径
imag