高效处理几十万张图片的重复检测与清理实战

南方小城菇凉

已于 2025-02-26 17:09:30 修改

阅读量467

点赞数 5

分类专栏：样本预处理文章标签： python 计算机视觉图像处理

于 2025-02-26 17:04:00 首次发布

本文链接：https://blog.csdn.net/qq_36525089/article/details/145882266

版权

样本预处理专栏收录该内容

1 篇文章

订阅专栏

引言

在现代数据驱动的世界中，图片数据的管理变得越来越重要。无论是电商平台的商品图片、社交媒体的用户上传内容，还是科研领域的实验数据，图片的数量往往以几十万甚至百万计。然而，这些图片中可能存在大量重复内容，尽管它们的文件名不同，但图片内容却完全一致。如何高效地检测并清理这些重复图片，成为了一个亟待解决的问题。

本文将分享一种高效的重复图片检测与清理方法，适用于处理几十万张图片的场景。通过分阶段处理和哈希值比对，我们可以在保证准确性的同时，大幅提升处理效率。

问题背景

现有包含几十万张图片的文件夹，这些图片可能具有以下特点：

文件名不同：图片的文件名可能完全不同，但内容却完全一致；
图片大小较大 ：单张图片的尺寸较大，直接比较像素值会非常耗时；
数量庞大 ：图片数量达到几十万张，传统方法难以在合理时间。

功能需求:

快速检测出内容完全相同的图片
将重复图片移动到指定文件夹，便于后续清理或归档

解决方法

为了高效处理这一问题，我们采用分阶段处理的策略：
1. 第一阶段：按图片大小分组
将大小相同的图片分组到同一个文件夹中。因为内容完全相同的图片，其文件大小一定相同；而文件大小不同的图片，内容一定不同。这一步可以大幅减少后续需要对比的图片数量。
2. 第二阶段：使用哈希值比对
对每组大小相同的图片，计算其哈希值（如图片的平均哈希值）。如果两张图片的哈希值相同，则认为它们的内容完全一致。

实现步骤

1.按图片大小分组
首先，我们遍历所有图片，根据文件大小将它们分组到不同的文件夹中。以下是实现代码：

import os
import shutil
def group_by_size(src_root, group_root):
    """按图片大小分组"""
    if not os.path.exists(group_root):
        os.makedirs(group_root)
    size_dict = {}  # 用于存储文件大小和对应的分组文件夹
    for root, dirs, files in os.walk(src_root):
        for file in files:
            filepath = os.path.join(root, file)
            file_size = os.path.getsize(filepath)  # 获取文件大小
            if file_size not in size_dict:
                size_folder = os.path.join(group_root, str(file_size))
                os.makedirs(size_folder, exist_ok=True)
                size_dict[file_size] = size_folder
            shutil.move(filepath, os.path.join(size_dict[file_size], file))

2.使用哈希值比对
接下来，我们对每组大小相同的图片，计算其哈希值并比对。以下是实现代码：

from PIL import Image
import imagehash
def calculate_image_hash(image_path):
    """计算图片的哈希值"""
    try:
        img = Image.open(image_path)
        return str(imagehash.average_hash(img))  # 使用平均哈希算法
    except Exception as e:
        print(f"无法处理图片 {image_path}: {e}")
        return None

def find_and_move_duplicates(group_root, duplicate_root):
    """查找并移动完全相同的图片"""
    if not os.path.exists(duplicate_root):
        os.makedirs(duplicate_root)

    for size_folder in os.listdir(group_root):
        size_folder_path = os.path.join(group_root, size_folder)
        if os.path.isdir(size_folder_path):
            hash_dict = {}  # 用于存储哈希值和对应的图片路径
            for file in os.listdir(size_folder_path):
                filepath = os.path.join(size_folder_path, file)
                img_hash = calculate_image_hash(filepath)
                if img_hash is None:
                    continue  # 跳过无法处理的图片

                if img_hash in hash_dict:
                    print(f"发现重复图片: {filepath} 和 {hash_dict[img_hash]}")
                    shutil.move(filepath, os.path.join(duplicate_root, file))
                else:
                    hash_dict[img_hash] = filepath

3.主程序
将上述两个步骤结合起来，完成整个流程：

if __name__ == "__main__":
    src_root = r"E:\图片库"  # 原始图片路径
    group_root = r"E:\按大小分组"  # 按大小分组后的路径
    duplicate_root = r"E:\重复图片"  # 重复图片存放路径

    # 第一步：按图片大小分组
    group_by_size(src_root, group_root)
    # 第二步：使用哈希值比对并移动重复图片
    find_and_move_duplicates(group_root, duplicate_root)