背景
在重复图识别领域,对于识别肉眼相同图片,PHash是很有用的,而且算法复杂度很低。它抓住了 ” 人眼对于细节信息不是很敏感 “ 的特性,利用DCT变换把高频信息去掉,再加上合适&简单的二值化方式,使得算法效果比较鲁棒。
PHash算法
-
流程图如下:
-
附上python代码:
def phash(image, hash_size=8, highfreq_factor=4):
import scipy.fftpack
img_size = hash_size * highfreq_factor
image = image.convert("L").resize((img_size, img_size), Image.ANTIALIAS)// 1、【预处理】转灰度图,resize
pixels = numpy.asarray(image)
dct = scipy.fftpack.dct(scipy.fftpack.dct(pixels, axis=