Python 图片去重,删除重复图片

删除文件夹中相似图片的任务比较复杂,因为需要定义“相似”的标准,并且这通常涉及到图像内容分析。一种常见的做法是使用图像哈希(如感知哈希、平均哈希等)来比较图像之间的相似度。在Python中,可以使用一些库如Pillow(PIL的更新版)来处理图像,以及ImageHash库来生成图像哈希。

下面是一个基本的步骤说明,展示如何使用Python和这些库来识别并删除相似图片:

步骤 1: 安装必要的库

首先,你需要安装PillowImageHash库。你可以使用pip来安装它们:

pip install Pillow imagehash

步骤 2: 编写代码以计算文件夹中所有图片的哈希值

接下来,你需要编写一个脚本来遍历文件夹中的所有图片,计算每张图片的哈希值,并将它们存储在一个字典中,键为哈希值,值为图片路径列表。

from PIL import Image
import imagehash
import os

def image_hash_dict(folder_path, hash_size=8):
    hash_dict = {}
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
                img_path = os.path.join(root, file)
                try:
                    with Image.open(img_path) as img:
                        img_hash = imagehash.average_hash(img, hash_size=hash_size)
                        if img_hash in hash_dict:
                            hash_dict[img_hash].append(img_path)
                        else:
                            hash_dict[img_hash] = [img_path]
                except Exception as e:
                    print(f"Error processing {img_path}: {e}")
    return hash_dict

# 使用示例
folder_path = '/path/to/your/images'
hash_dict = image_hash_dict(folder_path)

步骤 3: 识别并删除相似图片

在这个步骤中,你需要遍历哈希字典,找到具有多个图片路径的哈希值(表示这些图片相似),并决定哪些图片需要被删除。这通常需要你根据具体需求来编写逻辑,比如只保留第一张或最后一张,或者根据文件名、大小等其他标准来选择。

def delete_similar_images(hash_dict, keep_first=True):
    for hash_value, paths in hash_dict.items():
        if len(paths) > 1:
            to_delete = paths[1:] if keep_first else paths[:-1]
            for path in to_delete:
                try:
                    os.remove(path)
                    print(f"Deleted: {path}")
                except Exception as e:
                    print(f"Failed to delete {path}: {e}")

# 使用示例
delete_similar_images(hash_dict)

注意:删除文件是一个不可逆的操作,所以在执行删除操作之前,请确保你已经做好了备份,并且确实想要删除这些文件。此外,上面的代码只是一个基本的示例,你可能需要根据自己的具体需求对其进行调整和优化。

完整示例和解析

# 导入Pillow库,用于图像处理  
from PIL import Image  
  
# 导入imagehash库,用于生成图像哈希  
import imagehash  
  
# 导入os库,用于操作系统功能,如文件路径操作和删除文件  
import os  
  
# 定义一个函数,用于计算文件夹中所有图片的哈希值,并返回一个字典  
# 字典的键是哈希值,值是具有相同哈希值的图片路径列表  
def image_hash_dict(folder_path, hash_size=8):  
    hash_dict = {}  # 初始化一个空字典来存储哈希值和图片路径的映射  
    for root, dirs, files in os.walk(folder_path):  # 遍历指定文件夹及其子文件夹  
        for file in files:  # 遍历当前文件夹中的文件  
            if file.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):  # 检查文件是否是图片文件  
                img_path = os.path.join(root, file)  # 构建图片的完整路径  
                try:  
                    with Image.open(img_path) as img:  # 使用Pillow打开图片  
                        img_hash = imagehash.average_hash(img, hash_size=hash_size)  # 计算图片的哈希值  
                        if img_hash in hash_dict:  # 如果哈希值已经在字典中  
                            hash_dict[img_hash].append(img_path)  # 将图片路径添加到对应的哈希值列表中  
                        else:  
                            hash_dict[img_hash] = [img_path]  # 如果哈希值不在字典中,则创建一个新条目  
                except Exception as e:  # 如果在打开或处理图片时发生错误  
                    print(f"Error processing {img_path}: {e}")  # 打印错误信息  
    return hash_dict  # 返回包含哈希值和图片路径的字典  
  
# 调用image_hash_dict函数,并传入图片文件夹的路径  
folder_path = '/path/to/your/images'  
hash_dict = image_hash_dict(folder_path)  
  
# 定义一个函数,用于删除具有相同哈希值的图片中的重复项  
# 参数keep_first决定是否保留每组相似图片中的第一张(True)或最后一张(False)  
def delete_similar_images(hash_dict, keep_first=True):  
    for hash_value, paths in hash_dict.items():  # 遍历哈希字典  
        if len(paths) > 1:  # 如果某个哈希值对应多个图片路径(即存在相似图片)  
            to_delete = paths[1:] if keep_first else paths[:-1]  # 确定要删除的图片路径列表  
            for path in to_delete:  # 遍历要删除的图片路径  
                try:  
                    os.remove(path)  # 删除文件  
                    print(f"Deleted: {path}")  # 打印已删除的文件路径  
                except Exception as e:  # 如果删除时发生错误  
                    print(f"Failed to delete {path}: {e}")  # 打印错误信息  
  
# 调用delete_similar_images函数,并传入之前计算得到的哈希字典  
# 这里选择保留每组相似图片中的第一张  
delete_similar_images(hash_dict)
  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 图片去重是一个比较常见的任务,可以使用哈希算法实现。具体步骤如下: 1. 将所有图片的像素值转换成一个固定长度的字符串表示。可以使用感知哈希算法(Perceptual Hash,简称pHash),它可以将不同分辨率、不同大小、不同格式的图片转换为固定长度的字符串表示。 2. 将所有字符串进行比较,如果两个字符串相似度高于某个阈值,则认为这两个图片是相似的,只保留其中一个图片即可。 下面是使用Python实现基于pHash算法图片去重的代码示例: ```python import os import imagehash from PIL import Image # 计算图片的pHash值 def get_image_phash(image_path): with Image.open(image_path) as im: phash = imagehash.phash(im) return phash # 判断两个图片是否相似 def is_image_similar(image_path1, image_path2, threshold=5): phash1 = get_image_phash(image_path1) phash2 = get_image_phash(image_path2) hamming_distance = phash1 - phash2 return hamming_distance <= threshold # 基于pHash算法图片去重 def deduplicate_images(image_dir, threshold=5): image_paths = [os.path.join(image_dir, filename) for filename in os.listdir(image_dir)] for i, path1 in enumerate(image_paths): for j, path2 in enumerate(image_paths[i+1:], i+1): if is_image_similar(path1, path2, threshold): print(f"Remove {path2}") os.remove(path2) # 测试 if __name__ == '__main__': image_dir = "/path/to/image/dir" deduplicate_images(image_dir, threshold=5) ``` 代码中使用了`imagehash`库来计算图片的pHash值,`PIL`库来打开图片文件。函数`is_image_similar`用于判断两个图片是否相似,函数`deduplicate_images`则遍历指定目录下的所有图片,如果有相似的图片删除其中一个。 ### 回答2: Python图片去重是指通过某种算法或方法,从给定的图片集合中找出相似或重复图片,并进行去除操作,以减少存储空间或提高查找效率。 实现图片去重可以分为以下步骤: 1. 加载图片:使用Python的图像处理库(如Pillow)或使用第三方库(如OpenCV)加载图片,将其转换为计算机能够处理的数据格式。 2. 特征提取:对图片进行特征提取,以便后续对比和识别。常用的特征提取方法有哈希算法(如MD5、SHA1)、感知哈希算法(Perceptual Hashing)、局部二值模式(Local Binary Patterns)等。 3. 相似度计算:根据提取的特征,计算图片之间的相似度。可以使用相似度度量算法(如余弦相似度、汉明距离、欧式距离)来衡量图片之间的相似程度。 4. 去重操作:根据设定的相似度阈值,将相似度高于阈值的图片进行去重操作。可以选择保留第一张出现的图片,或根据自定义策略选择其他图片进行保留或删除。 5. 保存结果:将去重后的图片保存到指定的路径或数据库中,以备后续使用。 需要注意的是,图片去重是一个计算密集型的任务,处理大量图片可能需要较长的时间和较高的计算资源。 除了以上方法,还可以借助深度学习技术中的卷积神经网络(Convolutional Neural Network, CNN)进行图片相似度计算和去重。通过对训练好的CNN模型进行特征提取和比对,可以得到更精确的相似度结果,进而进行去重操作。 总之,Python提供了各种图像处理库和算法,可以灵活地实现图片去重功能。根据实际需求和资源限制,选择合适的方法和工具,可以高效地完成图片去重任务。 ### 回答3: 要实现Python图片去重,可以按照以下步骤进行: 1. 导入所需的Python库。首先,我们需要导入PIL库(Python Imaging Library)来处理图片。可以使用以下代码导入PIL库: ```python from PIL import Image ``` 2. 获取图片的哈希值。哈希值是一个对文件进行唯一标识的字符串。我们可以使用PIL库的`Image`模块来打开图片,并使用`hash`方法获取哈希值。例如,我们可以使用以下代码获取一张图片的哈希值: ```python image = Image.open('image.jpg') image_hash = image.hash() ``` 3. 对比图片的哈希值。现在,我们可以将所有的图片哈希值存储在一个列表中,并使用循环来对比它们。如果两个哈希值相同,那么两个图片就是相同的。我们可以使用以下代码进行对比: ```python duplicated_images = [] for image_path in image_paths: image = Image.open(image_path) image_hash = image.hash() if image_hash in duplicated_images: # 说明图片重复了 print(f'{image_path} 是重复图片') else: duplicated_images.append(image_hash) ``` 4. 删除重复图片。最后一步是删除重复图片。对于每一对重复图片,我们可以使用`os`模块的`remove`函数来删除其中一个图片。例如: ```python import os os.remove('duplicate_image.jpg') ``` 综上所述,以上是使用Python进行图片去重的基本步骤。当然,具体的实现方式还可以根据实际需要进行调整和扩展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值