局部敏感哈希（Locality Sensitive Hashing）和MinHash介绍与实例

本文链接：https://blog.csdn.net/sinat_28576553/article/details/81589392

在实际应用中，我们所面对的数据是海量的，并且有着很高的维度。在对数据的各种操作中，查询操作是最常见的一种，这里的查询是指输入一个数据，查找与其相似的数据，那么怎样快速地从海量高维数据中，找到与某个数据最相似的数据，成为了一个难点和问题。

低维的小数据集，可通过线性查找来解决，但如果是对一个海量的高维数据集采用线性查找的话，时间代价非常大，因此，为了解决该问题，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找或近似最近邻查找。局部敏感哈希就可以视为一种“近似最近邻查找”。

在介绍局部敏感哈希之前，需要先介绍传统的哈希算法。

传统哈希算法通过哈希函数建立哈希表，由哈希表我们能够得到O(1)的查找时间性能，传统哈希算法的关键在于，找到合适的哈希函数，将原始数据映射到相对应的桶内，如果不同的数据，映射到了同一个位置，就是发生了冲突，这是传统哈希算法所要避免的。

而局部敏感哈希的思路恰恰想法，LSH渴望冲突，但是，不是没有限制的胡乱冲突，而是希望原先相邻的两个数据能够被映射到相同的桶内，具有相同的桶号，也就是说，将相似的数据聚到一起。

LSH算法基于一个假设，如果两个数据在原有的数据空间中是相似的，那么分别经过哈希函数映射以后的它们也具有很高的相似度；相反，如果它们本身是不相似的，那么经过映射后它们仍不具有相似性。

也就是说，将原始数据空间中的两个相邻数据点通过相同的映射后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。

那么在实际使用中，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据，极大的减少了时间代价。

局部敏感哈希的最大特点就在于保持数据的相似性。

我们可以看一个反例：

假设一个哈希函数为Hash(x) = x%9，那么我们现在有三个数据分别为356、359和814，我们将上述的三个数据通过Hash函数转换为：

Hash(356) = 356%9 =5 ;

Hash(359) = 359%9= 8;

Hash(814) = 814%9 = 4;

在未经过映射前，数据356和359比较接近，和814相差较远，但是在经过哈希映射之后，814的哈希值和356的哈希值接近，359的哈希值和356的哈希值相差较远，也就是说，经过这种哈希计算后，数据之间原有的相似度消失，所以他不是一个局部敏感哈希。

那么，局部敏感哈希的哈希函数需要遵循什么样的原则呢？

局部敏感哈希函数需要满足以下两个条件：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；

2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2；

其中d(x,y)表示x和y之间的距离，d1 < d2， h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing 局部敏感哈希。

下面我们通过一个具体的实例，来介绍一下LSH的具体用法，“使用LSH实现文档相似度计算”。

假设现在有4个网页，我们将它们分别进行Shingling（将待查询的字符串集进行映射，映射到一个集合里。）得到如下的特征矩阵，每一列代表一个网页(文档)，每一行可以视为一个字符，例如a,b,c,d,e,f,g。