局部敏感哈希(LSH)简介

Dann Hiroaki

已于 2025-01-07 02:27:41 修改

阅读量1.2k

点赞数 16

文章标签：哈希算法算法

于 2024-11-04 19:46:38 首次发布

本文链接：https://blog.csdn.net/qq_64091900/article/details/143492322

版权

$\textbf{0. Intro}$

1️⃣ $\text{LSH}$ 的优势：在 $\lambda{}$ 较大的度量空间，也可以高效回答 $\text{c-ANN}$ 查询问题

2️⃣一些预备知识

多重集并集 $\text{(multi-set union): }$ 和普通并集相比区别在于保留重复项
比如 $Z_1 = \{a, b\}和Z_2 = \{b, c\}Z_1 \Rightarrow{}Z_1\cup Z_2 = \{a, b, b,c\}$

$\text{Markov}$ 不等式： $\text{Pr}[X \geq t \cdot \mathbf{E}[X]] \leq \frac{1}{t}$

$\textbf{1. }(r,c)\textbf{-Near Neighbor Search}$

1️⃣ $(r,c)\text{-NN}$ 概念

$\geq 1$ 且 $c > 1$ ， $S\subseteq{}U$ 且 $∣ S ∣ = n$ ， $\in U$
$(r,c)\text{-NN}$ 查询返回：令 $D\text{=dist}(q,e_i)$

$\textbf{Case}$ $\exist{}e_i使D\in[0,r]$ $\exist{}e_i使D\in{}[r,cr]$ $\exist{}e_i使D\in[cr,\infin{}]$ 返回对象
$\text{Case 1}$ 一定可能可能满足 $D\leq{cr}$ 的 $e_i$
$\text{Case 2}$ 不可能不可能不可能返回寂寞
$\text{Case 3}$ 不可能一定可能满足 $D\leq{cr}$ 的 $e_i$

2️⃣引理：按以下步骤，可回答 $S$ 上所有 $c^{2}\text{-ANN}$ 查询

条件：对任意 $\geq 1$ 和 $c > 1$ ，我们已经知道了如何在 $S$ 上构建结构来回答 $(r,c)\text{-NN}$ 查询
步骤：
构建 $O(\log \text{diam}(S))$ 个这样的结构
发起 $O(\log \text{diam}(S))$ 个 $(r,c)\text{-NN}$ 查询 ( $c$ 相同但 $r$ 不同)

$\textbf{Case}$	$\exist{}e_i使D\in[0,r]$	$\exist{}e_i使D\in{}[r,cr]$	$\exist{}e_i使D\in[cr,\infin{}]$	返回对象
$\text{Case 1}$	一定	可能	可能	满足 $D\leq{cr}$ 的 $e_i$
$\text{Case 2}$	不可能	不可能	不可能	返回寂寞
$\text{Case 3}$	不可能	一定	可能	满足 $D\leq{cr}$ 的 $e_i$

$\textbf{2. Locality Sensitive Hashing}$

1️⃣局部敏感哈希函数定义：核心思想就是将相似的点映射进同一桶，不相似的点映射到不同桶

前提
设 $r/c/p_1/p_2$ 满足 $r\geq{}1/c>1/0 < p_2 < p_1 \leq 1$
$h$ 是根据某种分布从函数族 $H$ 中抽取的函数

随机函数 $h\text{: }U \rightarrow \mathbb{N}$ 是 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数，需满足
$\forall{}x,y\in{}U\to{}\begin{cases}\text{dist}(x, y) \leq r\Rightarrow{}\text{Pr}[h(x) = h(y)] \geq p_1\\\\\text{dist}(x, y) > cr\Rightarrow{}\text{Pr}[h(x) = h(y)] \leq p_2\end{cases}$
即两个数据靠得近( $\leq{}r$ )，哈希冲突到一个桶的概率就大；靠的远( $> cr$ )则概率就小

此外定义 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数的对数比值为 $\rho = \cfrac{\ln \left(\cfrac{1}{p_1}\right)}{\ln \left(\cfrac{1}{p_2}\right)}=\cfrac{\ln{}p_1}{\ln{}p_2}<1$

2️⃣放大引理：若已知如何获得 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数 $h$ 则 $\forall{\text{int }}\ell \geq 1$ 有 $\left(r, cr, p_1^{\ell}, p_2^{\ell}\right)\text{-LSH}$ 函数 $g$ 使

$\forall{}x,g(x)$ 计算复杂度是 $h (x)$ 的 $O(\ell)$ 倍
$g (x)$ 空间复杂度为 $O(\ell)$

3️⃣ $\text{LHS}$ 实例： $\left(\mathbb{N}^d,\text{dist=Euclidean})\right.$ 的 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数

构建
生成 $d$ 个随机变量 $\alpha_1\alpha_2...\alpha_d$ 且 $\alpha_i\sim{}N(0,1)$
令 $\beta > 0$ 依赖于 $c$ ， $\gamma$ 在 $\beta]$ 中均匀随机生成
$\forall{}x\in\mathbb{N}^d$ 定义 $h(x)=\textbf{[}\cfrac{\gamma+\displaystyle\sum\limits_{i=1}^d\left(\cfrac{\alpha_i \cdot x[i]}{r}\right)}{\beta}\textbf{]}$

性质： $p_2$ 是一个常数，该函数的对数比值 $\rho\leq\cfrac{1}{c}$

$\textbf{3. A Structure for }(r,c)\textbf{-NN Search}$

$\textbf{3.0. Inro}$

1️⃣一些前置条件

$S\subseteq{}U\,(|S|=n)$
若能够构建 $\rho$ 的 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数，该结构用于在 $S$ 上回答 $(r,c)\text{-NN}$ 查询
记 $t_{lsh}$ 为评估 $\left(r, cr, p_1, p_2\right)\text{-LSH}$ 函数值所需时间

2️⃣需要证明的定理：存在这样一种结构

复杂度：
空间复杂度：使用 $O\left(n^{1+\rho} \cdot \log_{\frac{1}{p_2}} n\right)$ 个内存单元 $+$ 存储 $O\left(n^{1+\rho}\right)$ 个对象
时间复杂度：查询耗时 $O\left(n^\rho \cdot \log_{\frac{1}{p_2}} n \cdot t_{lsh}\right)+$ 计算距离耗时 $O\left(n^\rho\right)$

效果：能够至少以 $\cfrac{1}{10}$ 的概率，正确回答一次 $(r,c)\text{-NN}$ 查询

$\textbf{3.1. Structure}$

1️⃣哈希函数 $g_1g_2...g_L$ ：令 $\ell \geq 1$ 和 $\geq 1$ 为待定的整数，则

由函数 $h\text{:}\left(r, cr, p_1, p_2\right)\text{-LSH}$ 放大到为 $L$ 个独立函数 $\to\begin{cases}g_1\text{:}\left(r, cr, p_1, p_2\right)\text{-LSH}\\\\g_2\text{:}\left(r, cr, p_1^2, p_2^2\right)\text{-LSH}\\\\\,\,\,\,\,\,\,\,\text{. . . . . . . }\\g_{\ell}\text{:}\left(r, cr, p_1^{\ell}, p_2^{\ell}\right)\text{-LSH}\\\\\,\,\,\,\,\,\,\,\text{. . . . . . . }\\\\g_L\text{:}\left(r, cr, p_1^L, p_2^L\right)\text{-LSH}\end{cases}$

2️⃣桶定义：让所有 $x\in{}S$ 通过所有哈希函数 $g_i$ 算出哈希值，所有哈希值相同的 $x$ 分到一个桶里

3️⃣哈希表： $T_i$ 收集了由 $g_i$ 哈希出来的若干非空桶，一共 $L$ 张哈希表 $T_1, \ldots, T_L$ 构成了我们的结构

空间消耗： $\small\begin{cases}内存单元\text{: }O(n \cdot L \cdot \ell)\\\\对象\text{: }O(n \cdot L)\end{cases}\to{}$ 令 $\begin{cases}\ell{}=\log_{\frac{1}{p_2}}n\\\\L=n^{\rho}\end{cases}\to{}$ 空间复杂度符合 $\text{Intro}$ 中的定理

$\textbf{3.2. Query }$

1️⃣查询信息：对 $q\in{U\text{/}S}$ 执行 $(r,c)\text{-NN}$ 查询

2️⃣查询步骤

让 $q$ 分别通过 $g_1g_2...g_L$ 哈希函数，分别被分进桶 $g_1(q)g_2(q)...g_L(q)$ 记作 $b_1b_2...b_L$
让 $Z =$ 在 $b_1b_2...b_L$ 的多重集并集中任选 $2 L + 1$ 个
特殊情况：如果 $\displaystyle\sum_{i=1}^L |b_i| \leq 4L+1$ ，则 $Z$ 会包括所有桶的所有对象

在 $Z$ 中找到距 $q$ 最近的对象 $e$ ，若 $\text{dist}(q, e) \leq cr$ 则返回 $e$

3️⃣查询时间： $\small\begin{cases}原子操作\text{: }O\left(t_{lsh} \cdot \ell \cdot L\right)\\\\计算距离\text{: }O(L)\end{cases}\to{}$ 令 $\begin{cases}\ell{}=\log_{\frac{1}{p_2}}n\\\\L=n^{\rho}\end{cases}\to{}$ 时间复杂度符合 $\text{Intro}$ 中的定理

$\textbf{3.3. Analysis }$

0️⃣ $\text{Good}$ 的标准： $x\in{S}$ 是 $\text{good}\xLeftrightarrow{}\text{dist}(q, x) \leq c r$ 否则就为 $\text{Bad}$ ，算法至少返回一个 $\text{good}$ 才成功

1️⃣引理 $1\text{: }$ 查询能被正确回答，需要满足以下两个条件

$\mathbf{C 1：}$ $e^*$ 至少出现在 $b_1, \ldots, b_L$ 中的一个
$\mathbf{C 2：}$ $b_1b_2...b_L$ 的多重集并集中，至少含有 $2 L$ 个 $\text{bad}$ 对象

2️⃣引理 $2$ ： $\mathbf{C 1}$ 不成立的概率小于 $\cfrac{1}{e}$ ，即 $\text{Pr}\left[e^* \notin \displaystyle\bigcup\limits_{i=1}^L b_i\right]\leq{}\cfrac{1}{e}$ ，其中这个 $e = 2.718...$

3️⃣引理 $3$ ： $\mathbf{C 2}$ 不成立的概率小于 $\cfrac{1}{2}$

🤕所以 $\mathbf{C}1$ 和 $\mathbf{C}2$ 同时成立的概率至少为 $1-(\cfrac{1}{e}+\cfrac{1}{2})>0.1$