构建更好的 Bloom Filter——布隆过滤器优化算法double—hashing论文翻译（一）

卷王2048

已于 2024-09-12 00:22:21 修改

阅读量110

点赞数

分类专栏：布隆过滤器文章标签：算法

于 2024-09-12 00:15:20 首次发布

原文链接：https://www.eecs.harvard.edu/~michaelm/postscripts/rsa2008.pdf

版权

布隆过滤器专栏收录该内容

6 篇文章 0 订阅

订阅专栏

引言

本论文来自leveldb源码中bloom.cc下布隆过滤器实现的代码注释中推荐的论文。论证了一种布隆过滤器的优化方式，带有详细的证明。是不可多得的好文章。其中的许多公式会对布隆过滤器相关的文章有所帮助。**所以博主将论文和其中的海量公式转化为了可编辑的markdown和Latex，并在机翻的基础上，通读论文并对翻译的不足进行修改和润色。**方便大家引用。如有转载，望注明论文出处和本文出处，谢谢！

论文原文出处：论文原文

本文作者：csdn账号，个人空间 - AcWing

受平台字数限制，只好将论文分成多段，望理解

构建更好的 Bloom Filter

概述

哈希文献中的一种技术是使用两个哈希函数 $h_{1}(x)$ 和 $h_{2}(x)$ 来模拟 $g_{i}(x)=h_{1}(x)+ih_{2}(x)$ 形式的其他哈希函数。我们证明了这种技术可以有效地应用于 Bloom 过滤器和相关数据结构。具体来说,只需要两个哈希函数即可有效实现 Bloom 过滤器,而不会在渐近误报概率中造成任何损失。这会让计算次数减少,并且在实践中可能减少对随机性的需求。

1. 介绍

Bloom 过滤器是一种简单的节省空间的随机数据结构,用于表示一个集合以支持成员资格查询。尽管 Bloom 筛选器允许误报,但相比于节省的空间，这些极少的误报显得微不足道。布隆过滤器及其许多变体已被证明对许多应用程序越来越重要(例如,参见 [3])。对于那些不熟悉数据结构的人,我们将在下面的第 2 节中对其进行回顾。在本文中,我们表明应用哈希文献中的标准技术可以显著简化 Bloom 过滤器的实现。

这个想法是这样的:**两个哈希函数 $h_{1}(x)$ 和 $h_{2}(x)$ 可以模拟两个以上的哈希函数,形式为 $g_{i}(x)=h_{1}(x)+$ $ih_{2}(x)$ 。在我们的上下文中, $i$ 的范围从 0 到某个数字 $k - 1$ 以给出 $k$ 个哈希函数,并且哈希值取相关哈希表大小的模数。**我们证明了这种技术可以有效地应用于 Bloom 过滤器和相关数据结构。具体来说,只需要两个哈希函数即可有效实现 Bloom 过滤器,而不会增加渐近误报概率。这导致更少的计算,并且在实践中可能减少对随机性的需求。这种改进在 Dillinger 和 Manolios [5, 6] 的工作中得到了实证发现;在这里,我们提供了对该技术的完整理论分析。在回顾了 Bloom filter 数据结构之后,我们从一个具体的例子开始。

重点在一个有用但有点理想化的 Bloom filter 结构上,它提供了主要的见解。然后,我们转到一个更通用的设置,该设置涵盖了实践中可能出现的几个问题。例如,当哈希表的大小是 2 的幂而不是素数时。最后,我们通过展示如何使用它来减少 [4] 的 Count-Min Sketch 所需的哈希函数数量,展示了这种方法在简单的 Bloom 过滤器之外的实用性

2. 标准 Bloom 过滤器

我们首先根据调查的介绍回顾 Bloom 过滤器的基础知识 [3],我们参考该调查了解更多详细信息。一个布隆滤波器,用于表示来自一个大型集合 $U$ 的一组 $S=\{x_{1},x_{2},\ldots,x_{n}\}$ 的 $7 L$ 个元素,由一个 7712 位的数组组成,最初都设置为 0 。过滤器使用 $k$ 个独立的哈希函数 $h_{1},\ldots,h_{k}$ ,范围为 $\{1,\ldots,m\}$ ,其中假设这些哈希函数将集合中的每个元素映射到在该范围内均匀的随机数。虽然哈希函数的随机性显然是一个乐观的假设,但它在实践中似乎是合适的 [8, 13]。对于每个元素 $x\in S$ ,位 $h_{i}(x)$ 设置为 $1\leq i\leq k$ 的 1 。(一个位置可以多次设置为 1。为了检查项目 $y$ 是否在 S 中,我们检查是否所有 $h_{i}(y)$ 都设置为 1。如果不是,那么显然 $y$ 不是 S 的成员。如果所有 $h_{i}(y)$ 都设置为 1 ,我们假设 $y$ 在 S 中,因此布隆过滤器可能会产生误报。不在集合中的元素出现假阳性的概率,或假阳性概率

可以以简单的方式估计,因为我们假设哈希函数是完全随机的。在将 S 的所有元素哈希到 Bloom 过滤器中后,特定位仍为 0 的概率为

$p'=\left(1-\frac{1}{m}\right)^{kn}\approx\mathrm{e}^{-kn/m}.$

在本节中,为了方便起见,我们一般使用近似值 $p=\mathrm{e}^{-kn/m}$ 代替 $p^{\prime}$ 如果 $\mu$ 是表中所有 $7 L$ 个元素都插入后 0 位的比例,那么条件

在 $\mu$ 上,误报的概率为

$(1-\rho)^k\approx(1-p')^k\approx(1-p)^k=\left(1-\mathrm{e}^{-kn/m}\right)^k.$

这些近似值是由于 $\mathbf{E}[\rho]=p^{\prime}$ ,而 $\mu$ 可以使用标准技术显示高度集中在 $p^{\prime}$ 附近。很容易证明,当 $k=\ln2\cdot(m/n)$ 时,表达式

$\left(1-\mathrm{e}^{-kn/m}\right)^k$

被最小化,给出假阳性概率 $f$ 为

$f=\left(1-\mathrm e^{-kn/m}\right)^k=(1/2)^k\approx(0.6185)^{m/n}.$

在实践中, $k$ 必须是一个整数,并且可能首选较小的 $k$ ,因为这减少了必须计算的哈希函数的数量。此分析为我们提供了单个项目 $z\notin S$ 给出 false 的概率阳性。

我们想做一个广义的证明,事实上这给出了假阳性率。也就是说,如果我们选择大量不在 $S$ 中的不同元素,则产生假阳性的元素比例约为 $f $ 。但这个结果的紧凑性是因为 $\mu$ 高度集中在 $p^{\prime}$ 附近,因此,假阳性概率有时被称为假阳性率。

在继续之前,我们注意到有时 Bloom 过滤器的描述略有不同.其中每个哈希函数都有一个 $m / k$ 个连续位位置的不相交范围,而不是一个 7712 位的共享数组。重复上面的分析,我们发现在这种情况下,特定位为 0 的概率为 0

$\left(1-\dfrac{k}{m}\right)^n\approx\mathrm e^{-kn/m}.$

渐近地,性能与原始方案相同,尽管因为对于 $k\geq1$

$\left(1-\frac{k}{m}\right)^n\leq\left(1-\frac{1}{m}\right)^{kn},$

此修改永远不会降低假阳性概率

3. 使用两个哈希函数的简单构造。

作为一个具有指导意义的示例案例,我们考虑了引言中描述的一般技术的以下具体应用。我们设计了一个 Bloom 过滤器,它使用 $k$ 个哈希函数,每个函数的范围为 $\{0,1,2,\ldots,p-1\}$ 作为素数 $P $。我们的哈希表由 $m = k p$ 位组成;每个哈希函数在过滤器中都分配了一个 $P$ 位的不相交子数组,我们将其视为编号 $\{0,1,2,\ldots,p-1\}$ 。我们的 $k$ 哈希函数将是这样的

$g_i(x)=h_1(x)+ih_2(x)\bmod p,$

其中 $h_{1}(x)$ 和 $h_{2}(x)$ 是集合中两个独立的、统一的随机哈希函数,范围为 $\{0,1,2,\ldots,p-1\}$ ,在整个过程中,我们假设 $i$ 的范围从 0 到 $k - 1$

在此设置中,对于任意两个元素 $JL $ 和 $y$ ,恰好出现以下三种情况之一:

$g_{i}(x)\neq g_{i}(y)$ 对于所有 $\dot{\hat{x}}$ ;或
$g_{i}(x)=g_{i}(y)$ 恰好是一个 $\dot{i}$ ;或
所有 $\dot{i}$ 的 $g_{i}(x)=g_{i}(y)$

也就是说,如果 $g_{i}(x)=g_{i}(y)$ 至少有两个值 $i$ ,那么很明显我们必须有 $h_{1}(x)=h_{1}(y)$ 和 $h_{2}(x)=h_{2}(y)$ ,所以所有的哈希值都是相同的。正是这个属性暗示了分析,并使它成为一个有启发性的例子;在第 4 节中,我们考虑了可能发生其他重要冲突的更一般情况。

第一步,我们考虑一组 $S=\{x_{1},x_{2},\ldots,x_{n}\}$ $U$ 中的 7t 个元素和 $z\notin S$ 中的元素,并计算 Z 产生假阳性的概率。假阳性对应于事件 $\mathcal{F}$ ,对于每个 $i$ ,(至少)有一个 $j$ ,使得 $g_{i}( z)$ = $g_{i}( x_{j})$ 显然,发生这种情况的一种方式是,如果 $h_{1}(x_{j})=h_{1}(z)$ 并且 $h_{2}(x_{j})=h_{2}(z)$ 对于某些 $j$ 。此事件 $\xi$ 的概率为

$\mathbf{Pr}(\mathcal{E})=1-\left(1-\frac{1}{p^2}\right)^n=1-\left(1-\frac{k^2}{m^2}\right)^n.$

请注意,当某个常数 $C$ 的 $k = c m / n$ 时,按照布隆滤波器的标准,我们有 $\mathbf{Pr}(\mathcal{E})=o(1)$ 。现在因为

$\begin{aligned}\mathbf{Pr}(\mathcal{F})&=\mathbf{Pr}(\mathcal{F}\mid\mathcal{E})\mathbf{Pr}(\mathcal{E})+\mathbf{Pr}(\mathcal{F}\mid\neg\mathcal{E})\mathbf{Pr}(\neg\mathcal{E})\\&=\mathbf{Pr}(\mathcal{E})+\mathbf{Pr}(\mathcal{F}\mid\neg\mathcal{E})\mathbf{Pr}(\neg\mathcal{E})\\&=o(1)+\mathbf{Pr}(\mathcal{F}\mid\neg\mathcal{E})(1-o(1)),\end{aligned}$

考虑 $\mathbf{Pr}(\mathcal{F}\mid\neg\mathcal{E})$ 即可获得渐近假阳性概率,当 $m / n$ 和 $k$ 为常数时,该概率为常数

以 $\neg{\mathcal E}$ 和 $h_{1}(z),h_{2}(z))$ 为条件,对 $h_{1}(x_{j}),h_{2}(x_{j}))$ 均匀分布在 $V=\{0,\ldots,p-1\}^{2}-(h_{1}(z),h_{2}(z))$ 的 $p^{2}-1$ 值上。其中,对于每个 $i^{*}\in\{0,\ldots,k-1\}$ 中的 $p - 1$ 对

$V'=\{(a,b)\in V\::\:a\equiv i^*(h_2(z)-b)+h_1(z)\bmod p,\:b\not\equiv h_2(z)\bmod p\}$

是这样的值,如果 $(h_{1}(x_{j}),h_{2}(x_{j}))\in V^{\prime}$ ,则 $\ddot{\boldsymbol{i}}^{*}$ 是 $i$ 的唯一值,使得 $g_{i}(x_{j})=$ $g_{i}(z)$ 。因此,我们可以将条件概率视为 balls-and-bins 问题的变体。有 $7 l$ 的球和 $k$ 的桶。概率为 $k(p-1)/(p^{2}-1)=k/(p+1)$ 一个球落在箱子里,剩下的概率被丢弃;当球落入 bin 时,bin 会将其

Lands In 是随机均匀选择的。所有 bin 都至少有一个球的概率是多少？

这可以用多种方式表达。首先,我们可能还记得,从一组大小为 $U .$ 到一组大小为 $b$ 的射门数是由 $b 给出的！ S (a, b)$ ,其中 $S (a, b)$ 是指第二类的斯特林数。然后我们直接有

$\mathbf{Pr}(\mathcal{F}\mid\neg\mathcal{E})=\sum\limits_{a=k}^n{n\choose a}\left(\dfrac{k}{p+1}\right)^a\left(1-\dfrac{k}{p+1}\right)^{n-a}\dfrac{k！S(a,k)}{k^a}.$

可以将此表达式的极限设为 $Tl\rightarrow\mathbf{X}$ (例如,参见 [2] 的讨论)。

或者,我们可能会注意到,对于标准的 Bloom filter,我们也有类似的问题。假设元素 $z\notin S$ 的每个 $k$ 哈希值都是不同的(这种情况发生的概率很高),在这种情况下,有 $nk$ 个球(每个项目的每个哈希一个),每个球都有 $k / m$ 的概率落入箱子,这对应于 $z$ 的哈希值。很明显,在限制中为 711。并且 $7 l$ 变大并且 $k$ 保持为固定常数,那么在这两种情况下,落入 bin 的球数的分布都会收敛到相同的分布,因此误报的概率会收敛到
$f=\begin{pmatrix}1-\mathrm{e}^{-kn/m}\end{pmatrix}^k$

在这两种情况下。正如我们已经说过的,第 4 节将给出一个更正式和一般的论点。现在,就像第 2 节一样,我们必须论证 $f$ 不仅仅是渐近假阳性概率

但它也像假阳性率。与标准 Bloom 滤波器的情况类似,这归结为一个集中论点。一旦对集合 $S$ 进行哈希处理,就会有一个集合

$B=\{(b_1,b_2):h_1(z)=b_1\text{and}h_2(z)=b_2\text{implies}z\text{给出假阳性}\}.$

以 $\left|B\right|$ 中, $U - S$ 中任何元素出现假阳性的概率为 $B|/p^{2}$ ,并且这些事件是独立的。如果我们显示 $\left|B\right|$ 集中在它的期望附近,那么很容易得出,一组不在 S 中的不同元素中的假阳性分数集中在 $f$ 附近

一个简单的 Doob 马丁格尔论点就足够了。 $S$ 的每个哈希元素可以在任一方向上更改 $B$ 中的对数最多 $k p$ 。从 [12, Section 12.5] 中,对于任何 $\epsilon>0$
$\mathbf{Pr}(|B-\mathbf{E}[B]|\geq\epsilon p^2)\leq2\exp\left[\frac{-2\epsilon^2p^2}{nk^2}\right].$

现在很容易得出所需的结论。我们将细节推迟到第 7 节,在那里我们对更一般的结果提供更严格的证明。

4. 一般框架

在本节中,我们介绍了一个用于分析非标准 Bloom filter 方案的通用框架,例如 Section 3 中研究的框架。我们表明,在非常广泛的条件下,方案的渐近假阳性概率与标准 Bloom 滤波器相同。在深入研究细节之前,我们必须引入一些符号。对于任何整数 $\ell$ ,我们定义

集合 $[\ell]=\{0,1,\ldots,\ell-1\}$ (请注意,这个定义有点不标准)。对于随机变量 $X$ ,我们用 $\operatorname{Supp}(X)$ 表示 $X$ 的支持,如果 $Y$ 是另一个随机变量,那么 $X\sim Y$ 表示 $X$ 和 $Y$ 具有相同的分布。此外,我们使用 $Po(\lambda)$ 来表示参数为 $\lambda$ 的泊松分布

我们还需要一些关于多集合的符号。对于多集合 $M $ ,我们使用 $\left|M\right|$ 表示 $M$ 的不同元素的数量, $\|M\|$ 表示具有多重性的 $M$ 的元素数。对于两个多集 $M$ 和 $M^{\prime}$ ,我们将 $M\cap M^{\prime}$ 和 $M\cup M^{\prime}$ 分别定义为多集 $M$ 的交集和并集。此外,在滥用标准表示法的情况下,我们将语句 $i,i\in M$ 定义为 $i$ 是 $M$ 的重数至少 2 的元素。现在,我们已准备好定义框架。与前面部分一样, $U$ 表示集合

的项数和 $S\subseteq U$ 表示 Bloom 筛选器将回答其成员资格查询的 $T L$ 项集。我们将一个方案定义为一种将哈希位置分配给 $U$ 的每个元素的方法。更正式地说,方案由离散随机变量 $\{H(u):u\in U\}$ 的联合分布指定(由 $7 t$ 隐式参数化),其中对于 $u\in U$ , $H (u)$ 表示方案分配给 $u .$ 的多组哈希位置。我们不需要为每个 $7 L$ 的值定义一个方案,但我们坚持要为 $Tt$ 的无限多个值定义它,这样我们就可以把极限当作 $Tl\rightarrow\mathbf{x}$ 。例如,对于第 3 节中讨论的方案类别,我们认为常数 $k$ 和 $C$ 是固定的,以给出一个特定的方案,该方案仅针对 $Tl .$ 的值定义,使得 $p\stackrel{\mathrm{def}}{=}m/k$ 是一个素数,其中 $m\stackrel{\mathrm{def}}{=}cn$ 由于有无限多个素数,这个方案的渐近行为 $TL\rightarrow0$ 是明确定义的,与第 3 节中讨论的完全相同,其中我们让 TIl 是一个自由参数,并分析了 $m,m\to\infty$ 的行为,条件是 $m / n$ 和 $k$ 是固定常数, $m / k$ 是素数。在定义了方案的概念之后,我们现在可以用

new 表示法(所有这些都由 $7 l$ 隐式参数化)。我们将 $H$ 定义为方案可以分配的所有哈希位置的集合(正式地, $H$ 是在某些多集合中应用的元素集,以支持 $H (u)$ ,对于某些 $u\in U$ )。对于 $x\in S$ 和 $z\in U-S$ ,定义 $C(x,z)=H(x)\cap H(z)$ 为 $L$ 与 $Z$ 的多组哈希冲突。我们让 $\mathcal{F}(z)$ 表示 $z\in U-S$ 的假阳性事件,当 $Z$ 的每个哈希位置也是某些 $x\in S$ 的哈希位置时,就会发生该事件在我们考虑的方案中, ${ H( u) :$ $u\in U\}$ 将始终是独立且相同的

分散式。在这种情况下, $\mathbf{Pr}(\mathcal{F}(z))$ 对于所有 $z\in U-S$ 都是相同的, ${ C( x, z) :$ $x\in S\}$ 的联合分布也是相同的。因此,为了简化符号,我们可以在 $U - S$ 中固定一个任意的 $z$ ,简单地使用 $\Pr(\mathcal{F})$ 而不是 $\mathbf{Pr}(\mathcal{F}(z))$ 来表示假阳性概率,我们可以使用 ${ C( x) :$ $x\in S\}$ 而不是 ${ C( x, z) :$ $x\in S\}$ 来表示 S 元素与 $z$ 的多组哈希冲突的联合概率分布本节的主要技术成果是以下关键定理,它是一个形式化

以及第 3 节中给出的论点的推广,以表明那里分析的方案的渐近假阳性概率与具有相同参数的标准布隆滤波器相同。

定理 4.1.Fir a scheme.假设存在常数 $\lambda$ 和 $k$ ,使得:

$\{H(u):u\in U\}$ 是独立的,分布相同

2.对于 $u\in U$ , $\|H(u)\|=k$

3.对于 $\in S$

$\mathbf{Pr}(\|C(x)\|=i)=\left\{\begin{array}{cc}1-\frac{\lambda}{n}+o(1/n)&i=0\\\frac{\lambda}{n}+o(1/n)&i=1\\o(1/n)&i>1\end{array}\right..$

4. $\in S$

$\max\limits_{i\in H}\left|\mathbf{Pr}(i\in C(x)\mid\|C(x)\|=1,\:i\in H(z))-\frac{1}{k}\right|=o(1)\quad as\:n\to\infty.$

然后

$\lim\limits_{n\to\infty}\mathbf{Pr}(\mathcal{F})=\left(1-\mathrm{e}^{-\lambda/k}\right)^k.$

证明。为了便于解释,我们为 $H (z)$ 的每个元素分配一个 $[k]$ 中的唯一数字(将同一哈希位置的多个实例视为不同的元素)。更正式地说,我们为每个多集 $M\subseteq H$ 定义一个从 $M$ 到 $[k]$ 的任意双射 $f_{M}$ ,其中 $\|M\|=k$ (其中 $f_{M}$ 将 $M$ 中相同哈希位置的多个实例视为不同的元素),并根据 $f_{H(z)}$ 标记 $H (z)$ 的元素。这个约定允许我们通过数字 $i\in[k]$ 来识别 $H (z)$ 的元素,而不是哈希位置 $i\in H$ 对于 $i\in[k]$ 和 $x\in S$ ,如果 $i\in C(x)$ 定义 $X_{i}(x)=1$ ,否则定义 0,并定义。 $X_i\stackrel{\mathrm{def}}{=}$

$\sum_{x\in S}X_{i}(x)$ .请注意, $i\in C(x)$ 是对符号的滥用;我们真正的意思是 $f_{H(z)}^{-1}(i)\in C(x)$ ,尽管我们将继续使用前者,因为它要麻烦得多我们表明 $X^{n}\stackrel{\mathrm{det}}{=}(X_{0},\ldots,X_{k-1})$ 在分布中收敛到一个向量 $P\stackrel{\mathrm{def}}{=}(P_{0},\ldots,P_{k-1})$

的 $k$ 个参数为 $\lambda/k$ 的独立泊松随机变量,如 $Tl\rightarrow\mathbf{x}$ 。为此,我们使用了 moment 生成函数。对于随机变量 $R$ , $R .$ 的矩生成函数由 $M_{R}( t) \overset {\mathrm{def}}{\operatorname* { = } }\mathbf{E} [ \exp ( tR) ]$ 定义。我们表明,对于任何 $t_{0},\ldots,t_{k}$

$\lim_{n\to\infty}M_{\sum_{i=0}^{k-1}t_{i}X_{i}}(t_{k})=M_{\sum_{i=0}^{k-1}t_{i}P_{i}}(t_{k}),$

这已经足够了 [1, 定理 29.4 和第 390 页],因为

$\begin{aligned}M_{\sum_{i=0}^{k-1}t_{i}P_{i}}(t_{k})&=\mathbf{E}\left[\mathrm{e}^{t_{k}\sum_{i\in[k]}t_{i}P_{i}}\right]\\&=\prod_{i\in k}\mathbf{E}\left[\mathrm{e}^{t_{k}t_{i}\mathrm{Po}(\lambda/k)}\right]\\&=\prod_{i\in k}\sum_{j=0}^{\infty}\mathrm{e}^{-\lambda/k}\frac{\lambda^{j}}{k^{j}j!}\mathrm{e}^{t_{k}t_{i}j}\\&=\prod_{i\in k}\mathrm{e}^{\frac{\lambda}{k}\left(\mathrm{e}^{t_{k}t_{i}}-1\right)}\\&=\mathrm{e}^{\frac{\lambda}{k}\left(\sum_{i\in k}\mathrm{e}^{t_{k}t_{i}}-1\right)}<\infty,\end{aligned}$

其中第一步只是矩生成函数的定义,第二步是从 $t_{i}P_{i}(\lambda_{k})$ 的独立性开始,第三步只是泊松分布的定义,第四步是从 $\mathrm{e}^{x}$ 的泰勒级数开始,第五步是显而易见的。

接下来,我们写道

$\begin{aligned} &M_{\sum_{i\in[k]}t_{i}X_{i}}(t_{k}) \\ &=M_{\sum_{i\in[k]}t_{i}\sum_{x\in S}X_{i}(x)}(t_{k}) \\ &=M_{\sum_{x\in S}\sum_{i\in[k]}t_iX_i(x)}(t_k) \\ &=\begin{pmatrix}M_{\sum_{i\in[k]}t_iX_i(x)}(t_k)\end{pmatrix}^n \\ &= \left( \mathrm{Pr}(\|C(x)\|=0)\right.\\ &+\sum_{j=1}^{k}\Pr(\|C(x)\|=j)\sum_{T\subseteq[k]:|T|=j}\Pr(C(x)=f_{H(z)}^{-1}(T)\mid\|C(x)\|=j)\mathrm{e}^{t_{k}\sum_{i\in T}t_{i}}\Bigg) \\ &=\left(1-\frac{\lambda}{n}+\frac{\lambda}{n}\sum_{i\in[k]}\Pr(i\in C(x)\mid\|C(x)\|=1)\mathrm{e}^{t_kt_i}+o(1/n)\right)^n \\ &=\left(1-\frac{\lambda}{n}+\frac{\lambda}{n}\sum_{i\in[k]}\left(\frac{1}{k}+o(1)\right)\mathrm{e}^{t_{k}t_{i}}+o(1/n)\right)^{n} \\ &= \left(1-\frac{\lambda}{n}+\frac{\lambda\sum_{i\in[k]}\mathrm{e}^{t_{k}t_{i}}}{kn}+o(1/n)\right)^{n} \\ &\to\mathrm{e}^{-\lambda+\frac{\lambda}{k}\sum_{i\in[k]}\mathrm{e}^{t_{k}t_{i}}}\quad\mathrm{as} n\to\infty \\ &= \mathrm{e}^{\frac{\lambda}{k}\left(\sum_{i\in[k]}\left(\mathrm{e}^{t_{k}t_{i}}-1\right)\right)} \\ &= M_{\sum_{i\in[k]}t_{i}\mathrm{Po}_{i}(\lambda_{k})}(t_{k}). \end{aligned}$

前两个步骤是显而易见的。第三步是从 $H (x)$ 是独立的这一事实开始的

dent 和以 $H (z)$ 为条件的相同分布(对于 $x\in S$ ),所以 $\sum_{i\in[k]}t_{i}X_{i}(x)$ 也是,因为每个都是相应 $H (x)$ 的函数。第四步来自力矩生成函数的定义。第五步和第六步遵循对 $C (x)$ 分布的假设(在第六步中, $i\in H(z)$ 的条件隐含在我们的约定中,它将 $[k]$ 中的整数与 $H (z)$ 的元素相关联)。第七步、第八步和第九步是显而易见的,第十步遵循前面的计算。现在修复一些双射 $g$ : $\mathbb{Z} _{\geq 0}^{k}$ $\to$ $\mathbb{Z} _{\geq 0}$ ,并定义 $h:\mathbb{Z}_{\geq0}\to\{0,1\}:h(x)=1$ if 和

仅当 $g^{-1}(x)$ 的每个坐标都大于 0 时。由于 ${X^{n}\}$ 在分布中收敛到 $P$ ,因此 ${g(X^{n})\}$ 在分布中收敛到 $g (P)$ ,因为 $y$ 是一个双射,而 $X^{n}$ 和 $P$ 具有离散分布。Skorohod 表示定理 [1, 定理 25.6] 现在意味着存在一些概率空间,可以在其中定义随机变量 ${Y_{n}\}$ 和 $P^{\prime}$ ,其中 $Y_{n}\sim g(X^{n})$ 和 $P^{\prime}\sim g(P)$ ,以及 ${Y_{n}\}$ 几乎可以肯定地收敛到 $P^{\prime}$ 。当然,由于 $Y_{n}$ 只取整数值,因此每当 ${Y_{n}\}$ 收敛到 $P^{\prime}$ 时,必须有一些 $7l_{0}$ ,使得 $Y_{n_{0}}=Y_{n_{1}}=P^{\prime}$ 对于任何 $n_{1}>n_{0}$ ,因此 ${h(Y_{n})\}$ 很容易收敛到 $h(P^{\prime})$ 。因此, ${h(Y_{n})\}$ 收敛为

$h(P^{\prime})$ 几乎可以肯定,所以

$\begin{aligned}\mathbf{Pr}(\mathcal{F})&=\mathbf{Pr}(\forall i\in[k],X_{i}>0)\\&=\mathbf{E}[h(g(X^{n}))]\\&=\mathbf{E}[h(Y_{n})]\\&\to\mathbf{E}[h(P^{\prime})]]\quad\mathrm{as}\:n\to\infty\\&=\mathbf{Pr}(\mathrm{Po}(\lambda/k)>0)^{k}\\&=\left(1-\mathrm{e}^{-\lambda/k}\right)^{k},\end{aligned}$

其中第四步是唯一的非平凡步骤,它遵循[1,定理 5.4]

事实证明,定理 4.1 的条件在许多情况下可以很容易地验证。

引理 4.1.Fir a scheme.假设存在常数 $\lambda$ 和 $k$ ,使得

$\{H(u):u\in U\}$ 是独立的,分布相同

2.对于 $u\in U$ , $\|H(u)\|=k$

3.对于 $u\in U$

$\max\limits_{i\in H}\left|\mathbf{Pr}(i\in H(u))-\frac{\lambda}{kn}\right|=o(1/n).$

4.$u $

$\max_{i_{1},i_{2}\in H}\mathbf{Pr}(i_{1},i_{2}\in H(u))=o(1/n).$

5.所有可能的哈希位置集合 $H$ 满足 $∣ H ∣ = O (n)$

那么定理 4.1 的条件成立( $\lambda$ 的值相同),因此结论也是如此。

备注。回想一下,在我们的符号下,当且仅当 $\dot{i}$ 是重数至少 2 的 $H (u)$ 的元素时,语句 $i,i\in H(u)$ 才成立。

证明。我们采用定理 4.1 证明中引入的约定,其中 $H (z)$ 的元素由 $[k]$ 中的整数标识

定理 4.1 的前两个条件很容易满足。对于第三个条件,观察对于任何 $j\in\{2,\ldots,k\}$ 和 $x\in S$

$\begin{aligned}\mathbf{Pr}(\|C(x)\|=j)&\leq\mathbf{Pr}(\|C(x)\|>1)\\&=\mathbf{Pr}(\exists i_{1}\leq i_{2}\in[k]:i_{1},i_{2}\in H(x)\mathrm{~or~}\exists i\in H:i\in H(x),i,i\in H(z))\\&\leq\sum_{i_{1}\leq i_{2}\in[k]}\mathbf{Pr}(i_{1},i_{2}\in H(x))+\sum_{i\in H}\mathbf{Pr}(i\in H(x))\mathbf{Pr}(i,i\in H(z))\\&\leq k^{2}o(1/n)+|H|\left(\frac{\lambda}{kn}+o(1/n)\right)o(1/n)\\&=o(1/n)+|H|o(1/n^{2})\\&=o(1/n)+O(n)o(1/n^{2})\\&=o(1/n)\end{aligned}$

和

$\Pr(\|C(x)\|=1)\leq\Pr(|C(x)|\geq1)\leq\sum_{i\in[k]}\Pr(i\in H(x))\leq k\left({\frac{\lambda}{kn}}+o(1/n)\right)={\frac{\lambda}{n}}+o(1/n)$

和

$\begin{aligned}\mathbf{Pr}(\|C(x)\|\geq1)&=\mathbf{Pr}\left(\bigcup_{i\in[k]}i\in H(x)\right)\\&\geq\sum_{i\in[k]}\mathbf{Pr}(i\in H(x))-\sum_{i_{1}<i_{2}\in[k]}\mathbf{Pr}(i_{1},i_{2}\in H(x))\\&\geq k\left(\frac{\lambda}{kn}+o(1/n)\right)-k^{2}o(1/n)\\&=\frac{\lambda}{n}+o(1/n),\end{aligned}$

所以

$\begin{aligned}\mathbf{Pr}(\|C(x)\|=1)&=\mathbf{Pr}(\|C(x)\|\geq1)-\mathbf{Pr}(\|C(x)\|>1)\\&\geq\frac{\lambda}{n}+o(1/n)-o(1/n)\\&=\frac{\lambda}{n}+o(1/n).\end{aligned}$

因此

$\Pr(\|C(x)\|=1)=\frac{\lambda}{n}+o(1/n),$

和

$\begin{aligned}\mathbf{Pr}(\|C(x)\|=0)=1-\sum_{j=1}^k\mathbf{Pr}(\|C(x)\|=j)=1-\frac{\lambda}{n}+o(1/n).\end{aligned}$

我们现在已经证明,定理 4.1 的第三个条件是满足的

对于第四个条件,我们观察到对于任何 $i\in[k]$ 和 $x\in S$

$\mathbf{Pr}(i\in C(x),\|C(x)\|=1)\leq\mathbf{Pr}(i\in H(x))=\frac{\lambda}{kn}+o(1/n),$

和

$\begin{aligned}\mathbf{Pr}(i\in C(x),\|C(x)\|=1)&=\mathbf{Pr}(i\in H(x))-\mathbf{Pr}(i\in H(x),\|C(x)\|>1)\\&\geq\mathbf{Pr}(i\in H(x))-\mathbf{Pr}(\|C(x)\|>1)\\&=\frac{\lambda}{kn}+o(1/n)-o(1/n),\end{aligned}$

所以

$\Pr(i\in C(x),\|C(x)\|=1)=\frac{\lambda}{kn}+o(1/n),$

这意味着

$\mathbf{Pr}(i\in C(x)\mid\|C(x)\|=1)={\frac{\mathbf{Pr}(i\in C(x),\|C(x)\|=1)}{\mathbf{Pr}(\|C(x)\|=1)}}={\frac{{\frac{\lambda}{kn}}+o(1/n)}{{\frac{\lambda}{n}}+o(1/n)}}={\frac{1}{k}}+o(1),$

完成证明( $i\in H(z)$ 的条件再次被约定所暗示,即 $\sqcup$ 将 $[k]$ 的元素与 $H (z)$ 中的哈希位置相关联

5. 一些具体方案

我们现在准备分析一些具体的方案。特别是,我们研究了第 3 节中描述的方案的自然泛化,以及 [5, 6] 中介绍的双重哈希和扩展双重哈希方案

在这两种情况下,我们都考虑一个由 $T I l = CT b$ 位数组和 $k$ 哈希函数组成的 Bloom 过滤器,其中 $c > 0$ 和 $k\geq1$ 是固定常数。哈希函数的性质取决于所考虑的特定方案

5.1分区方案

首先,我们考虑分区方案的类,其中 Bloom 过滤器由一个 7712 位的数组定义,该数组被划分为 $k$ 个 $m^{\prime}=m/k$ 位的不相交数组(我们要求 $711 l$ 能被 $k$ 整除),并且一个项目 $u\in U$ 被哈希到位置

$h_1(u)+ih_2(u)\bmod m'$

数组 $i$ ,对于 $i\in[k]$ ,其中 $h_{1}$ 和 $h_{2}$ 是具有共域 $[m^{\prime}]$ 的独立完全随机哈希函数。请注意,第 3 节中分析的方案是一个分区方案,其中 $m^{\prime}$ 是素数(因此在第 3 节中用 $P$ 表示)除非另有说明,否则我们进行所有涉及 $h_{1}$ 和 $h_{2}$ 模数 $m^{\prime}$ 的算术运算

我们证明了以下关于分区方案的定理

定理 5.1.对于分区方案,

$\lim\limits_{n\to\infty}\mathbf{Pr}(\mathcal{F})=\left(1-\mathrm{e}^{-k/c}\right)^{k}.$

证明。我们将证明 $H (u)$ 满足引理 4.1 的条件,其中 $\lambda=k^{2}/c$ 对于 $i\in[k]$ 和 $u\in U$ ,定义

$\begin{aligned}g_i(u)&=(i,h_1(u)+ih_2(u))\\H(u)&=(g_i(u)\::\:i\in[k]).\end{aligned}$

也就是说, $g_{i}(u)$ 是 $u$ 的第 i 个哈希位置, $H (u)$ 是 $yo u r$ 的多组哈希位置。这个表示法显然与引理 4.1 要求的定义一致,因为 $h_{1}$ 和 $h_{2}$ 是独立的和完全随机的,所以前两个条件是微不足道的。这

最后一个条件也是微不足道的,因为有 $T H = C H L$ 可能的哈希位置。对于其余两个条件,请修复 $u\in U$ 。观察到,对于 $(i,r)\in[k]\times[m^{\prime}]$

$\mathbf{Pr}((i,r)\in H(u))=\mathbf{Pr}(h_{1}(u)=r-ih_{2}(u))=\frac{1}{m^{\prime}}=\frac{k^{2}/c}{kn},$

对于不同的 $(i_{1},r_{1}),(i_{2},r_{2})\in[k]\times[m^{\prime}]$ ,我们有

$\begin{aligned}\mathbf{Pr}((i_{1},r_{1}),(i_{2},r_{2})\in H(u))&=\mathbf{Pr}(i_{1}\in H(u))\:\mathbf{Pr}(i_{2}\in H(u)\mid i_{1}\in H(u))\\&=\frac{1}{m^{\prime}}\mathbf{Pr}(h_{1}(u)=r_{2}-i_{2}h_{2}(u)\mid h_{1}(u)=r_{1}-i_{1}h_{2}(u)))\\&=\frac{1}{m^{\prime}}\mathbf{Pr}((i_{1}-i_{2}))h_{2}(u)=r_{1}-r_{2})\\&\leq\frac{1}{m^{\prime}}\cdot\frac{\gcd(|i_{2}-i_{1}|,m^{\prime})}{m^{\prime}}\\&\leq\frac{k}{(m^{\prime})^{2}}\\&=o(1/n)\end{aligned}$

其中第四步是唯一重要的步骤,它从标准事实得出,对于任何 $r,s\in[m]$ ,最多有 $\gcd(r,m)$ 值 $t\in[m]$ 使得 $rt\equiv s\bmod m$ m TIl(例如,参见[9,命题 3.3.1])。最后,由于从方案的定义中可以清楚地看出 $\left|H(u)\right|=k$ 对于所有 $u\in U$ ,我们有任何 $(i,r)\in[k]\times[m^{\prime}]$

$\mathbf{Pr}((i,r),(i,r)\in H(u))=0.$

5.2 (扩展的) 双重哈希方案

接下来,我们考虑双哈希和扩展双哈希方案的类别,在 [5, 6] 中对它们进行了实证分析。在这些方案中,项目 $u\in U$ 被哈希处理到 location

$h_1(u)+ih_2(u)+f(i)\bmod m$

在 $7 T L$ 位的数组中,对于 $i\in[k]$ ,其中 $h_{1}$ 和 $h_{2}$ 是具有共域 $[m]$ 的独立完全随机哈希函数, $f:[k]\to[m]$ 是一个任意函数。当 $f(i)\equiv0$ 时,该方案称为双哈希方案。否则,称为 ertended double hashing scheme(带 $f$ )

除非另有说明,否则我们进行所有涉及 $h_{1}$ 和 $h_{2}$ 模数 TIl 的运算 TIl 我们证明了以下关于双重哈希方案的定理。

定理 5.2.对于任何(扩展的)双重哈希方案。

$\lim\limits_{n\to\infty}\mathbf{Pr}(\mathcal{F})=\left(1-\mathrm{e}^{-k/c}\right)^{k}.$

备注。结果适用于 $f $ 的任何选择。事实上, $f$ 甚至可以从 $m]^{[k]}$ 的任意概率分布中得出,只要它是独立于两个随机哈希函数 $h_{1}$ 和 $h_{2}$ 绘制的

证明。我们继续证明该方案满足引理 4.1 的条件(对于 $\lambda=k^{2}/c$ )。由于 $h_{1}$ 和 $h_{2}$ 是独立且完全随机的,因此前两个条件很容易成立。最后一个条件也很微不足道,因为有 $T H = CT L$ 个可能的哈希位置

证明第三个和第四个条件成立需要付出更多的努力。首先,我们需要一些符号。对于 $u\in U$ , $i\in[k]$ ,定义

$\begin{aligned}g_i(u)&=h_1(u)+ih_2(u)+f(i)\\H(u)&=(g_i(u):\:i\in[k]).\end{aligned}$

也就是说, $g_{i}(u)$ 是 $u$ 的第 i 个哈希位置, $H (u)$ 是 $u$ 的多组哈希位置。这种表示法显然与 Lemma 4.1 要求的定义一致。修复 $u\in U$ 。对于 $r\in[m]$
$\begin{aligned}\mathbf{Pr}(\exists j\in[k]:g_j(u)=r)\leq\sum_{j\in[k]}\mathbf{Pr}(h_1(u)=r-jh_2(u)-f(j))=\frac{k}{m}.\end{aligned}$

此外,对于任何 $j_{1},j_{2}\in[k]$ 和 $r_{1},r_{2}\in[m]$

$\begin{aligned}\mathbf{Pr}(g_{j_{1}}(u)=r_{1}, g_{j_{2}}(u)=r_{2})&=\mathbf{Pr}(g_{j_{1}}(u)=r_{1})\mathbf{Pr}(g_{j_{2}}(u)=r_{2}\mid g_{j_{1}}(u)=r_{1})\\&=\frac{1}{m}\mathbf{Pr}(g_{j_{2}}(u)=r_{2}\mid g_{j_{1}}(u)=r_{1})\\&=\frac{1}{m}\mathbf{Pr}((j_{1}-j_{2})h_{2}(u)=r_{1}-r_{2}+f(j_{2})-f(j_{1}))\\&\leq\frac{1}{m}\cdot\frac{\gcd(|j_{1}-j_{2}|,m)}{m}\\&\leq\frac{1}{m}\cdot\frac{k}{m}\\&=\frac{k}{m^{2}}\\&=o(1/n),\end{aligned}$

其中第四步是唯一重要的一步,它从标准事实得出,对于任何 $r,s\in[m]$ ,最多有 $\gcd(r,m)$ 值 $t\in[m]$ ,使得 $rt\equiv s$ mod 711。例如,参见 [9, Proposition 3.3.1])。因此,对于 $r\in[m]$

$\begin{aligned}\mathbf{Pr}(\exists j\in[k]:g_{j}(u)=r)&\geq\sum_{j\in[k]}\mathbf{Pr}(g_{j}(u)=r)-\sum_{j_{1}<j_{2}\in[k]}\mathbf{Pr}(g_{j_{1}}(u)=r,g_{j_{2}}(u)=r)\\&\geq\frac{k}{m}-k^{2}o(1/n)\\&=\frac{k}{m}+o(1/n),\end{aligned}$