重复图片查找:巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片
在处理大量图片数据时,重复图片的出现是一个常见的问题。重复图片不仅浪费存储空间,还可能影响数据分析的准确性。本文将介绍如何使用Python和OpenCV库,通过图像哈希(pHash)和汉明距离(Hamming Distance)来检测重复图片。
1. 导言
在大规模图像处理中,重复图片的检测和移除是一个常见的需求。为了高效地实现这一目标,我们可以使用图像哈希算法。图像哈希是一种将图像内容映射到固定长度的二进制字符串的技术,可以用来快速比较图像的相似性。
在本文中,我们将使用感知哈希(pHash)算法来计算图像的哈希值,并通过汉明距离来衡量不同图像哈希值之间的相似性。
2. 环境准备
首先,我们需要确保已经安装了必要的软件和库。本文使用的主要库包括:
- OpenCV:用于图像处理
- NumPy:用于数值计算
- os:用于文件和目录操作
- collections:用于字典操作
可以使用以下命令安装这些库:
pip install opencv-python numpy
3. 图像哈希(pHash)原理
感知哈希(pHash,Perceptual Hash)是一种基于图像内容特征的哈希算法。它通过以下几个步骤生成图像的哈希值:
- 将图像转换为灰度图。
- 缩放图像到指定大小(例如8x8或16x16)。
- 计算图像像素的平均值。
- 将每个像素与平均值比较,大于平均值的像素赋值为1,小于平均值的像素赋值为0。
- 将比较结果按顺序连接成一个二进制字符串,即为图像的哈希值。
4. 汉明距离原理
汉明距离(Hamming Distance)用于衡量两个二进制字符串之间的差异。具体来说,汉明距离是两个字符串对应位置上不同字符的个数。例如,字符串“1010”和“1001”的汉明距离为2。
在图像哈希检测中,汉明距离越小,表示图像越相似。
5. 代码实现
导入必要的库
import cv2
import numpy as np
import os
from collections import defaultdict
图像哈希计算函数
该函数用于计算图像的感知哈希值。
def calculate_phash(image_path, hash_size=16):
# 读取图像并转换为灰度图
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
if image is None:
raise ValueError(f"Image not found: {image_path}")
# 缩放到指定大小
image = cv2.resize(image, (hash_size, hash_size))
# 计算平均值
avg = np.mean(image)
# 生成哈希值
phash = ''.join(['1' if pixel > avg else '0' for row in image for pixel in row])
return phash
汉明距离计算函数
该函数用于计算两个二进制字符串之间的汉明距离。
def hamming_distance(hash1, hash2):
return sum(c1 != c2 for c1, c2 in zip(hash1, hash2))
查找重复图片函数
该函数遍历指定文件夹中的所有图片,计算每张图片的哈希值,并根据汉明距离查找重复图片。
def find_duplicate_images(image_folder, hash_size=8, distance_threshold=5):
phashes = defaultdict(list)
for image_name in os.listdir(image_folder):
image_path = os.path.join(image_folder, image_name)
phash = calculate_phash(image_path, hash_size)
phashes[phash].append(image_name)
duplicates = []
for hash_values in phashes.values():
if len(hash_values) > 1:
duplicates.append(hash_values)
return duplicates
示例使用
下面的代码展示了如何使用上述函数查找指定文件夹中的重复图片。
# 示例使用
image_folder = r'D:\JupyterNotebook\extract_fire_pic_v1'
duplicates = find_duplicate_images(image_folder)
if duplicates:
for group in duplicates:
print("Duplicate group:", group)
else:
print("No duplicates found.")
在此处,将r'D:\JupyterNotebook\extract_fire_pic_v1'
替换为你的图片存放文件夹即可。
例如我在r'D:\JupyterNotebook\same_pic'
下有如下一些照片:
通过以上代码运行后,跑车的结果如下:
可以看到相同的图片已经被分到同一组中去了。