本文作者是360奇舞团开发工程师
引言
最近在做小程序换肤功能,因为不同主题色的小程序对应了不同图片库,项目内图片引用的方式又是线上URL地址配置形式,新加一套图片时,就要将图片和线上URL链接对比之后,配置到对应的Key上。这么人工操作一遍后发现费时费力。因为不同图片库间主要是颜色差异,想着能不能通过图片相似度对比以后,自动将图片匹配对应的Key。最后研究了下,通过感知哈希实现了我的需求,记录一下。
感知哈希
概念
感知哈希是使用指纹算法生成各种形式的多媒体的片段、哈希或指纹。感知哈希是一种局部敏感哈希,如果多媒体的特征相似,则它是类似的。
在图像应用中,感知图像哈希是一种根据图像的视觉外观创建图像指纹的方法。这种指纹使得比较相似的图像变得更加容易。这种算法常用于以图搜图场景,根据提供图片返回视觉上相似的图片,比如谷歌的图像搜索就基于感知哈希。
感知哈希与加密哈希
与 MD5 和 SHA1 等加密哈希函数相比,感知哈希是一个不同的概念。
对于加密哈希,哈希值是随机的。用于生成哈希的数据就像随机种子一样,因此相同的数据将生成相同的结果,但不同的数据将产生截然不同的结果。相反,感知哈希可以进行比较——得到两个数据集之间的相似性。
比较两个 SHA1 哈希值实际上只能得到两个结论。如果哈希值不同,则数据不同。如果哈希值相同,则数据可能相同。(由于存在哈希冲突的可能性,因此具有相同的哈希值并不能保证相同的数据)。
基于此特性,MD5和SHA1可以用来计算文件的哈希值,再进行对比,来判断是否是重复文件。但是对于图片相似度场景来说,对数据相同判定如此严苛的对比算法就不太适用。因为,对于图片来说,图像格式、元数据等等信息的修改,都会导致像素内容完全相同的情况下却有不同的二进制内容,从而导致哈希截然不同。
除此之外,图