jd 2018/8/12 将收集到的多方来源的图片样本进行图片去重处理,删除每个文件夹中一样的图片

本文介绍了一种图片去重的方法,通过计算每行像素的平均值,然后用均值哈希结合汉明距离比较图片相似度。在Python中,利用OpenCV库对图片进行缩放、灰度处理,并计算方差,以此判断图片是否重复,重复图片将被删除。
摘要由CSDN通过智能技术生成
一般采用均值hass值+汉明距离的方法:即获取全图像素平均值,然后比较,获得(0,1分布),然后转化为16进制,计算每张图与这些值得汉明距离

2)这里优化了算法,取每行像素的平均值,然后对



import cv2
import matplotlib.pyplot as plt
import os
import numpy as np


# 计算方差
def getss(list):
    # 计算平均值
    avg = sum(list) / len(list)
    # 定义方差变量ss,初值为0
    ss = 0
    # 计算方差
    for l in list:
        ss += (l - avg) * (l - avg) / len(list)
    # 返回方差
    return ss


# 获取每行像素平均值
def getdiff(img):
    # 定义边长
    Sidelength = 8
    # 缩放图像
    img = cv2.resize(img, (Sidelength, Sidelength), interpolation=cv2.INTER_CUBIC)
    # 灰度处理
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # avglist列表保存每行像素平均值
    avglist = []
    # 计算每行均值,保存到avglist列表
    for i in range(Sidelength):
        avg = sum(gray[i]) / len(gray[i])
        avglist.append(avg)
    # 返回avglist平均值
    return avglist


# 读取测试图片
path = 'D:\\JDNetDiskDownload\\data\\result'
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值