需求假设:你的老板给你上万张候选人的证件照,但是由于某些原因,一部分人的照片有不止一张(重复了),让你把重复出现的照片删掉,下班之前整理好发给他。你一看表距离下班只剩5分钟了,加班是不可能加班的。
这时候你灵光一现,想起了python有图像处理模块
拿起键盘打开你最爱的IDE二话不说首先import以下必定要用到的库
import cv2import numpy as npimport os
别急,这种任务网上肯定是有现成轮子的,直接借鉴就好。对于图像去重,主要思路有,md5比较法和感知哈希法。其中md5比较法的鲁棒性稍微低了点,有时候图片因为多次压制或其他因素导致md5变化,从而图片看起来一样,但是会被判做不同图片。
感知哈希算法是比较常用的方法,在硬币分类检测时老潘也尝试过,但是并不适用于那个场景。但是今天的场景是绝对适合的。其中感知哈希算法