相似图像搜索的哈希算法有三种:
(1)均值哈希算法
(2)差值哈希算法
(3)感知哈希算法
我们这里介绍Phash,附录有另外两种的实现。
感知哈希算法步骤:
1、设置图片大小:一般是32 * 32,一个较好的大小,方便DCT计算;
2、转化为灰度图:把缩放后的图片转化为256阶的灰度图;
3、计算DCT: DCT把图片分离成分率的集合;
4、DCT计算后的矩阵是32 * 32,保留左上角的8 * 8,这些代表的图片的最低频率;
5、计算平均值:计算缩小DCT后的所有像素点的平均值;
6、计算图片哈希值,大于平均值记录为1,反之记录为0,得到信息指纹,组合64个信息位,顺序随意保持一致性;
7、最后比对两张图片的指纹,对比汉明距离从而比较图片相似性。
汉明距离:两个等长距离的字符串的汉明距离为两个字符串对应位置不同字符的个数,比如“100010”和“000001”的汉明距离为3。
// 感知哈希算法
import cv2
import numpy as np
#定义感知哈希
def phash(img):
#step1:调整大小32x32
img=cv2.resize(img,(32,32))
img=cv2.cvtColor(img,cv2.COLOR_BGR