LSH系列3：p-stable LSH&E2LSH——原理介绍

最新推荐文章于 2021-09-06 19:25:43 发布

原创最新推荐文章于 2021-09-06 19:25:43 发布 · 5.6k 阅读

52 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

局部敏感哈希（LSH）专栏收录该内容

3 篇文章

订阅专栏

p-stableLSH是一种处理高维数据近似最近邻查询（ANN）的方法，利用p-stable分布对特征向量进行降维并保持局部敏感性。在欧氏空间中，p-stable分布可以近似高维特征，通过点积生成哈希函数，使得距离近的点更可能哈希到一起。E2LSH是p-stableLSH的一种实现，通过多组哈希函数和数组+链表的数据结构来构建索引，以解决(c, r)-ball cover查询，进一步用于c-ANN查询。

p-stable LSH

背景

LSH 方法是处理海量高维数据 Approximate Nearest Neighbor（ANN）查询的有效的方法。

c-ANN 查询的定义为：给定一个查询点 $q$ ，且 $o^{*}$ 是精确的 NN 查询的结果，该查询返回一个点 $o$ ， $||o,q||_p \leq ||o^{*},q||_p$ 。

在处理欧氏空间中 ANN 问题时，原始的 LSH（Original LSH）方法将原始空间中的点嵌入到 Hamming 空间中，即将欧氏空间中点的表示形式转换成 Hamming 空间中点的表示形式，原始空间中的距离度量转换成 Hamming 空间中的距离度量，即 Hamming距离（其定义为两个等长序列各位进行异或运算，结果为 1 的个数）。

对应该汉明距离的 Origin LSH 的为位采样运算（bit sampling）。但是一般距离都是用欧式距离进行度量的，将欧式距离映射到 Hamming 空间再比较其的 Hamming 距离比较麻烦，于是研究者提出了基于 p-stable distribution 的位置敏感哈希算法，不需要将原始空间嵌入到 Hamming 空间中而是可以直接处理欧式距离，并解决 (R,c)-近邻问题。

p-stable LSH应用在d维 lp-norm 下的欧几里得空间中， $p \in (0, 2]$ 。

p-stable distribution

p-stable LSH 之所以会叫这个名字，是因为该算法应用到 p-stable distribution（p-稳定分布）的概念。下面给出的就是p-稳定分布的概念：

对于一个实数集 R 上的分布 D，如果存在 $p > = 0$ ，对任何 n 个实数 $v_1,…,v_n$ 和 n 个满足 D 分布的变量 $X_1,…,X_n$ ，随机变量 $\sum_iv_iX_i$ 和 $(\sum_i|v_i|^p)^{1/p}X$ 有相同的分布，其中 $X$ 是服从D分布的一个随机变量，则称 D 为一个p稳定分布。

对任何 $p \in (0, 2]$ 存在稳定分布：

$p = 1$ 是柯西分布，概率密度函数为 $c(x)=\frac{1}{π(1+x^2)}$ ；

$p = 2$ 是高斯分布，概率密度函数为 $g(x)=\frac{1}{(2π)^{\frac{1}{2}}}e^{-\frac{x^2}{2}}$ 。

利用 p-stable distribution 可以有效的近似高维特征向量，并在保证度量距离的同时，对高维特征向量进行降维，这里先说是如何降维的，其关键思想是：

产生一个 d 维的随机向量 $a$ ， $a=(X_1,...,X_d)$ ，随机向量 $a$ 中的每一维随机的、独立的从 p-stable distribution中产生（每一个随机变量都满足 p-stable 分布）。
对于一个 d 维的特征向量 $v$ ，因为 $\cdot v =\sum_iv_iX_i$ ，如 p-stable distribution 的定义，随机变量 $\cdot v$ 具有和 $(\sum_i|v_i|^p)^{1/p}X$ 一样的分布，即和 $v||_pX$ 是同分布的。可以用 $\cdot v$ 表示向量 $v$ 来估算 $v||_p$ ，其中 $v||_p$ 表示向量 $v$ 在欧几里得空间 p-norm 下的长度（原始空间中的长度）。
上面 $\cdot v$ 的结果是一个实数，就相当于将一个向量映射到了一个实数上，也就是一维上。我们可以用 k 个这样的随机向量 $\{a_i:a_i=(X_1,...,X_d), 1\leq i \leq k\}$ ，每一个随机向量都可以将这个向量映射到一维上，那么这 k 个随机向量映射得到的 k 个实数组成的向量，就可以看成是 k 维投影空间（降维了）中该向量的坐标。

这里证明 p=2 情形下，将高维数据映射到投影空间后，是如何保证距离度量的。p=2 采用欧氏距离作为距离度量方式，且记 p-stable distribution 服从标准正态分布， $X ～ N (0, 1)$ ：

对于原始空间中任意两个特征向量 $v_1,v_2$ ，其在投影空间中的坐标点分别为 $v_1^{'},v_2^{'}$ ，记 $r=||v_1,v_2||$ 为其在原始空间中的距离， $r^{'}=||v_1^{'},v_2^{'}||$ 为其在投影空间中的距离。
记 $\rho_i$ 为投影空间中这两个点第 i 维坐标值的差，那么显然有 $r^{'} = (\sum_{i=1}^{k}\rho_i^{2})^{\frac{1}{2}}$ 。
由 p-stable 分布的定义可知， $\rho_i = a_i \cdot (v_1-v_2)$ ，与 $\cdot X$ 是同分布的，即 $\rho ～N(0,r^2)$ ，即 $\frac{\rho}{r} ～ N(0,1)$ 。
$\frac{r^{'2}}{r^2} = \frac{\sum\rho_i^{2}}{r^2}$ ，也就是 k 个相互独立的标准正态分布之和，有：
$\frac{r^{'2}}{r^2} ～ \chi^2(k)$
接下来对 $r^{'}$ 的置信区间进行估计，建立起 $r$ 与 $r^{'}$ 之间的强依赖关系。给定原始空间中的两个点 $o_1,o_2$ ，我们有：
- $The\ probability\ that\ r^{'}\ <\ r\sqrt{\chi_{1-\alpha}^{2}(k)}\ is\ \alpha.$
- $The\ probability\ that\ r^{'}\ >\ r\sqrt{\chi_{\alpha}^{2}(k)}\ is\ \alpha.$
- 证明如下：对于卡方分布 $\chi^2(k)$ 来说，给定一个概率 $\alpha$ ，去寻找使得 $\chi^2(k)$ 大于某个数的概率为 $\alpha$ ，这个数就记为卡方分布在参数 $k,\alpha$ 下的上侧分位数，记为 $\chi^2_{\alpha}(k)$ ，表示：
  $\int_{\chi^2_{\alpha}(k)}^{\infin}f(x;k) = \alpha$
  我们知道 $\frac{r^{'2}}{r^2}$ 是服从卡方分布的，我们对 $\frac{r^{'2}}{r^2}$ 的置信区间 $I = [u, v]$ 进行估计，对任何给定的 $\alpha$ 要求其落在 $I$ 内的概率为 $1-2\alpha$ 。一个标准做法就是选择使得 $Pr[\frac{r^{'2}}{r^2}<u]=\alpha$ ，即 $Pr[\frac{r^{'2}}{r^2}>u]=1-\alpha$ 以及 $Pr[\frac{r^{'2}}{r^2}>v]=\alpha$ 成立的 $u, v$ 取值，也就是找使得 $\int_{u}^{\infin}f(x;k) =1- \alpha$ 及 $\int_{v}^{\infin}f(x;k) = \alpha$ 成立的 $u, v$ 取值。根据卡方分布上侧分位数的定义，我们有 $u=\chi_{1-\alpha}^{2}(k)$ 和 $v=\chi_{\alpha}^{2}(k)$ 。所以:
  $Pr[r^{'}<r\sqrt{\chi_{1-\alpha}^{2}(k)}] = \alpha \\ Pr[r^{'}>r\sqrt{\chi_{\alpha}^{2}(k)}] = \alpha$
  得证。这样就建立起了原始空间中的距离与投影距离的置信区间之间的一种强关系。

p-stable LSH 的哈希函数

在 p-stable LSH 中，点积 $\cdot v$ 不用来估计 $v||_p$ 的值，而是用来生成哈希函数，且该哈希函数是局部敏感的（即空间中距离较近的点映射后发生冲突的概率高，空间中距离较远的点映射后发生冲突的概率低），使用它对每一个特征向量 $v$ 赋予一个哈希值。

对于两个向量 $v_1,v_2$ $\cdot v_1-a \cdot v_2)$ 是映射后的距离，而其值与 $v_1-v_2||_pX$ 同分布，因此原始距离 $v_1-v_2||_p$ 较小时，映射后的距离也小，因此使用点积来生成哈希函数可以保持局部敏感性。如果 $v_1$ 和 $v_2$ 距离很近，它们的哈希值将相同，并被哈希到同一个桶中的概率会很大。

大体方法： $\cdot v$ 将特征向量 $v$ 映射到实数集R，如果将实轴以宽度 $w$ 等分，并对每一段进行标号，则 $\cdot v$ 落到哪个区间，就将此区间标号作为哈希值赋给它。

哈希函数定义如下：

$h_{a,b}(v):R^d→ N$ ，映射一个 d 维特征向量 $v$ 到一个整数集。哈希函数中有两个随机变量 $a$ 和 $b$ ，其中 $a$ 为一个 d 维向量，随机向量 $a$ 中的每一维随机的、独立的从 p-stable distribution 中产生， $b$ 为 $[0, w]$ 范围内的随机数， $w$ 是人为设定的一个参数。对于一个固定的 $a, b$ ，p-stable LSH 的哈希函数 $h_{ab}(v)$ 为:
$h_{ab}(v) = \lfloor \frac{a \cdot v + b}{w} \rfloor$

这样的哈希函数构成的集合 ${h_{a,b}(v):R^d→ N\}$ 为 p-stable LSH 的哈希函数族。

两个向量在 p-stable LSH 的哈希函数映射下发生碰撞的概率分析

从 p-stable LSH 的哈希函数族中随机选取一个哈希函数，现在估计两个向量 $v_1,v_2$ 在该哈希函数下发生冲突（也就是落在一个桶中）的概率。若要向量 $v_1$ 和 $v_2$ 映射后发生冲突，需要满足如下条件： $v_1$ 和 $v_2$ 通过与 $a$ 进行点积运算分别映射到一段长度为 $w$ 线段后，再通过加 $b$ 运算，能使映射后的点在同一条线段上。

首先定义 $c=||v_1-v_2||_p$ （原始空间中的距离）， $f_p(t)$ 为 p-stable 的分布的概率密度函数，那么特征向量 $v_1$ 和 $v_2$ 映射到一个桶上的距离是 $a·v_1-a·v_2|<w$ ，即 $v_1-v_2)·a|<w$ ，根据p-Stable分布的特性，即 $v1-v2||_pX=|cX|<w$ ，其中随机变量 $X$ 满足 p-stable distribution。

$P(c)=Pr[h_{ab}(v_1)-h_{ab}(v_2)] = \int_{0}^{w}\frac{1}{c}f_p(\frac{t}{c})(1-\frac{t}{w})dt$

关于这个概率公式的证明，详见它的最后一部分。

根据该式，可以得出两个特征向量的冲突碰撞概率随着距离 $c$ （指的是原始空间中的距离）的增加而减小，这符合局部敏感哈希函数的要求。

E2LSH

各路博客中 E2LSH 的解释

这里已经尽力把网上给出的 E2LSH 算法整理了一遍了，完全是没有道理的，至于为什么没有道理，在下一节开始会给出。

欧氏局部敏感哈希(E2LSH，Exact Euclidean locality sensitive Hashing)是 p-stable LSH在欧氏空间的一种随机化实现方法，其基本原理是：利用基于p-稳定分布的位置敏感函数对高维数据进行降维映射，使原始空间中距离很近的两个点经映射操作后依然很近。

一组哈希函数的情况

只有一个 $g (v)$ 的情况，只有一个哈希表。

为拉大距离近的点与距离远的点经映射后碰撞概率之间的差距，E2LSH 常将 k 个 p-stable LSH 哈希函数联合使用。

从 p-stable LSH 哈希函数族 ${h_{a,b}(v):R^d→ N\}$ 选择 k 个哈希函数，组成一组哈希函数 $g(v)=(h_1(v),...,h_k(v))$ ，对于每个数据点 $\in R^d$ ，经函数 $g (v)$ 降维后可以得到一个 k 维向量 $a = (a_1 , a_2 , ··· , a_k )$ ，这个 $k$ 元组就代表一个桶。

但将 k 元组 $a$ 直接作为该哈希表的桶标号，即占用内存，又不便于查找。为解决此问题，设计者又将其分层，使用数组+链表的方式，其中链表中的每一项都是一个哈希桶，即将原来的哈希表组织成下面的形式。

在这里插入图片描述

对每个形式为 k 元组的桶标号 $a$ ，使用如下两个哈希函数 H1 和 H2 计算得到两个值：

其中 H1 的值是数组中的位置，数组的大小也就相当于是哈希表的大小。
其中 H2 的值作为 k 元组的代表，链接到对应 H1 数组位置的链表中。

H1 和H2 的具体形式如下：

$H_1(a) = [(\sum_{i=1}^{k}r_ia_i)\ mod\ C]\ mod\ tableSize \\ H_2(a) = (\sum_{i=1}^{k}r_i^{'}a_i)\ mod\ C$

其中:

$r_i$ 和 $r_i^{'}$ 是随机整数;
$C$ 是一个大素数，在 32 位机器上可以设置为 $2^{32}-5$ ;

索引构建过程：

对数据集中的所有点 $v$ ，使用 $g (v)$ 函数对其进行降维，也就是确定其桶标号。
然后使用新定义的哈希函数 $H_1$ 和 $H_2$ ，将其存在对应位置的哈希桶内
也就是根据 $H_1$ 的值找到在数组中的位置，然后根据 $H_2$ 的值在链表中寻找对应的哈希桶，在将原始数据点 $v$ 存到对应的哈希桶中。

查询过程如下：

对于查询点 q；
使用这 k 个哈希函数构成的函数（即 $g (q)$ ）计算桶标号的 k 元组；
对 k 元组计算 H1 和 H2 的值；
获取哈希表 H1 位置的链表；
在链表中查找 H2 值对应的哈希桶；
计算 q 与桶中样本的精确的距离，并排序；
找到规定的点。

多组哈希函数的情况

定义 $\{g_l(v):g_l(v)=(h_1(v),...,h_k(v)),1 \leq l \leq L\}$ ，也就是定义 $L$ 个前面那样的 $g (v)$ 函数，这对应着 $L$ 个哈希表。每个 $g_l(v)$ 函数由从哈希函数族 ${h_{a,b}(v):R^d→ N\}$ 中随机独立地选取 k 个哈希函数组成， $g_l(v)$ 对向量 $v$ 降维后的值，表示其在第 $l$ 个哈希表中哈希桶标号。

对于每个 $g_l(v)$ 函数，都对应着一个哈希表，每个哈希表都由数组+链表的形式构成。

哈希表

在构建索引时，对数据集中的每个数据点 $v$ ，计算其 $L$ 个哈希函数的值，并将其存在 $L$ 个哈希表对应的哈希桶内。

查询时，同样计算查询点 $q$ 的 $L$ 个 $g_l(q)$ 函数值，找到 $q$ 所在的 $L$ 个哈希桶，计算 $q$ 与这些哈希桶中的全部点（有的说是 $3 L$ 个点）的精确距离，找到规定的点。

实际上呢？需要 (r,c)-BC query 来回答 c-ANN query

实际上，现有的方法都不是都不是直接地去解决 c-ANN 查询问题的，因为就算你筛选出了候选集，但是你不知道精确的 NN 结果，所以你无法验证到底哪个点 $o$ 符合 $||q,o||\leq c*||q,o^{*}||$ 条件，所以上面的验证方法都是白扯。

为了解决 c-ANN 查询问题，提出了一个 $(r,c)-BC\ query（(r,c)\ ball\ cover）$ 的概念。这里给出它的定义，其中 $r$ 是超球体的半径， $c$ 是近似比，数据集为 $D$ ，记 $B (q, r)$ 为以 $q$ 为中心， $r$ 为半径的一个超球体。一个 $(r, c) - B C$ 查询返回：

如果 $B (q, r)$ 至少包含 $D$ 中一个点的话，那么返回距离 $q$ 至多为 $c r$ 的一个点；
如果 $B (q, c r)$ 不包含 $D$ 中的任何点的话，那么什么都不返回。
$Otherwise,\ the\ result\ is\ undefined$ .

在这里插入图片描述

如上图，考虑 $(r, 2) - B C$ 查询：

对 $q_1$ 查询时，由于 $B(q_1,r)$ 内有点，所以返回 $o_1$ 或 $o_2$ ，因为这两个点都在 $B(q_1,2r)$ 内；
对 $q_2$ 查询时，由于 $B(q_2,2r)$ 内没有点，所以什么都不返回。

在这里插入图片描述

$c - A N N$ 查询可以通过执行一组 $(r, c) - B C$ 查询来解决。基本思想是这样的：如果 $B (q, r)$ 不包含任何点，但 $B (q, c r)$ 包含点，那么 $B (q, c r)$ 中的任何一点都可以作为 $c - A N N$ 查询的结果。就是说精确解 $o^{*}$ 肯定是在这两个超球组成的超环之内的，所以对于这个超环内的任何一点 $o$ 肯定有 $||q,o||\leq ||q,o^{*}||$ 。如上图， $B (q, r)$ 不包含任何点，但是 $B (q, c r)$ 包含点，所以 $q$ 精确的 $N N$ 查询结果到 $q$ 的距离一定在 $r$ 和 $c r$ 之间，所以说 $B (q, c r)$ 中任何一点都是 $q$ 的 $c - A N N$ 查询的结果。