这篇文字主要写MinHash和SimHash的区别、联系、在工业界使用等,不涉及MinHash和SimHash的详细基础介绍,相关资料参考资料里给出。
一、相同点
提到哈希我们想到很多应用,最常见的话就是用于提高查询效率,还可用于加密方面。本篇文章要介绍的MinHash和SimHash由于具有一些特殊的特性在降维,查重和聚类等方面应用广泛。
1.它们都具有一般哈希方法所没有的局部敏感的性质(局部敏感哈希LSH是一类哈希函数)。比如MD5算法会使两个相差不大的文档的哈希结果差异很大,而MinHash和SimHash会使两个相差不大的文档的哈希结果很相似。
-敏感的LSH函数族的公式化描述如下图。其中Sim(x,y)代表x和y两点的相似度。Pr( h(x) = h(y) )表示x和y两点哈希结果相同(产生冲突)的概率。
对于-敏感的LSH函数族,对于近邻搜索问题,查询时间和