Network Applications of Bloom Filters: A Survey

蓝精灵没长耳朵

已于 2024-01-10 15:14:03 修改

阅读量874

点赞数 17

文章标签：算法网络

于 2024-01-10 12:04:00 首次发布

本文链接：https://blog.csdn.net/qq_51382761/article/details/135489396

版权

Network Applications of Bloom Filters: A Survey

一、False Positive rate 假阳性 / 误判率
- 1. self
- 2. 论文方法

一、False Positive rate 假阳性 / 误判率

Bloom Filter有一个可预测的误判率，可通过调整hash function数量k，以及位数组m大小来控制。
参数：
m：bloom filter size
在这里插入图片描述

n：elements number
k：hash函数个数 / hash次数

assume：kn < m / m >> n（保证filter不满）

1. self

一个element，hash一次，某位置1的概率：
$\frac {1} {m}$
一个element，hash一次，该位不置1的概率：
$\frac 1 m$
一个element，hash k次，该位不置1的概率：
$\begin{aligned} P(1个element，hash \ k次，该位不置1) &= (1 - \frac 1 m)^k \\ &= ((1 - \frac 1 m)^{-m}) ^{- \frac k m}\\ &≈ e^{-\frac k m} \end{aligned}$
上式用e的极限：
$\begin{aligned} \lim_{x\to \infty} (1 + \frac 1 x) ^x &= e\\ \lim_{x\to \infty} (1 - \frac 1 x) ^x &= \lim_{x\to \infty} ((1 + (- \frac 1 x)) ^{-x})^{-1} \\ &= e^{-1} \end{aligned}$
n个elements，hash k次，某位不置1的概率：
$\begin{aligned} P(n个elements，hash \ k次，某位不置1)&=(1 - \frac 1 m)^{kn}\\ &≈ e^{-\frac {nk} m} \end{aligned}$
n个elements，hash k次，某位置1的概率：
这个概率是：n个elements，hash k次之后的状态中，bloom filter中1的概率。
$\begin{aligned} P(n个elements，hash \ k次，某位置1)&=1 - (1 - \frac 1 m)^{kn}\\ &≈ 1 - e^{-\frac {kn} m} \end{aligned}$
PS：
以上，“置1” -> “不置1” -> “置1”，这样计算原因：hash k次，有重复置1。

假阳 / 误判：新的element来，hash k次之后，原本不应全为1，但事实是，得到的全是1。
（新来的需要hash k次）
$\begin{aligned} P(false \ positive) &=(1 - (1 - \frac 1 m)^{kn})^k\\ &≈ (1 - e^{-\frac {kn} m})^k \end{aligned}$
以上误判率中，m↑ p↓ / n↓ p↓，确定p随k的变化。
先定m，根据内存大小确定，给定一个合适的m值。
$\begin{aligned} 令 \qquad f(k) &= (1 - e^{-\frac {kn} m})^k \\ 两边取ln \quad ln(f(k)) &= ln((1 - e^{-\frac {kn} m})^k) \\ &= kln(1 - e^{-\frac {kn} m}) \\ 两边求导 \qquad \frac 1 {f(k)}f'(k) &= ln(1 - e^{-\frac {kn} m}) + k(ln(1 - e^{-\frac {kn} m}))' \\ &= ln(1 - e^{-\frac {kn} m}) + k(\frac 1 {1 - e^{-\frac {kn} m}})(1 - e^{-\frac {kn} m})' \\ &= ln(1 - e^{-\frac {kn} m}) + k(\frac 1 {1 - e^{-\frac {kn} m}})(- e^{-\frac {kn} m})(-\frac {kn} m)' \\ &= ln(1 - e^{-\frac {kn} m}) + k(\frac 1 {1 - e^{-\frac {kn} m}})(- e^{-\frac {kn} m})(-\frac n m) \\ &= ln(1 - e^{-\frac {kn} m}) + \frac {\frac {kn} m e^{-\frac {kn} m}} {1 - e^{-\frac {kn} m}}\\ 导数f'(k) = 0 时，求一个极值： \\ \frac 1 {f(k)}f'(k)&= \frac 1 {f(k)} · 0 \\ &= 0 \\ &= ln(1 - e^{-\frac {kn} m}) + \frac {\frac {kn} m e^{-\frac {kn} m}} {1 - e^{-\frac {kn} m}}\\ 去分母：0 &= (1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) + \frac {kn} m e^{-\frac {kn} m} \\ 0 &= (1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) - e^{-\frac {kn} m}(-\frac {kn} m) \\ 0 &= (1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) - e^{-\frac {kn} m}lne^{-\frac {kn} m} \\ 即：e^{-\frac {kn} m}lne^{-\frac {kn} m}&= (1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) \\ \end{aligned}$ $\begin{aligned}&令： \begin {cases} x = e^{-\frac {kn} m} \\ y = 1 - e^{-\frac {kn} m} \end{cases}，x + y = 1 \\ &上式可写为：xlnx = ylny \\ &讨论f(x) = xlnx 函数：f'(x) = lnx + 1 \\ &f'(x) = 0时，解得x = \frac 1 e \\ &f(\frac 1 e) = -\frac 1 e，f(0) =0，f(1) = 0\end{aligned}$
绘制函数图像如图：
在这里插入图片描述
$\begin{aligned} 要求：\begin {cases} \begin{equation} x + y = 1\qquad\end{equation} \\ \begin{equation} xlnx = ylny \ 函数值相等\quad \end{equation} \end{cases}，唯一解：x=y=\frac 1 2 \\ \end{aligned}$
解释：
因为函数值相等的解，只能在[0, 1]区间，
但是该区间内的解不满足(1)式，因为函数不对称。
具体如下图所示：
在这里插入图片描述
$\begin{aligned} 由以上可知，&x = y = \frac 1 2 \\ 即：&x = e^{-\frac {kn} m} = \frac 1 2 \\ -\frac {kn} m &=ln\frac 1 2 \\ &= ln2^{-1} \\ &= -ln2 \\ k &= \frac m nln2 \\ 即：&f'(k) = 0 时，k = \frac m nln2\\ 导数等于0的点，&说明k = \frac m nln2这是个极值点，需要讨论两侧单调性 \end{aligned}$ $\begin{aligned} f(k) &= (1 - e^{-\frac {kn} m})^k\\ f'(k) &= 0 时，k = \frac m nln2\\ \frac 1 {f(k)}f'(k) &= ln(1 - e^{-\frac {kn} m}) + k(ln(1 - e^{-\frac {kn} m}))' \\ f'(k) &= f(k)[ln(1 - e^{-\frac {kn} m}) +\frac {\frac {kn} m e^{-\frac {kn} m}} {1 - e^{-\frac {kn} m}}]\\ &= (1 - e^{-\frac {kn} m})^k[ln(1 - e^{-\frac {kn} m}) +\frac {\frac {kn} m e^{-\frac {kn} m}} {1 - e^{-\frac {kn} m}}]\\ &=(1 - e^{-\frac {kn} m})^{k-1}[(1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) +\frac {kn} m e^{-\frac {kn} m}]\\ &=(1 - e^{-\frac {kn} m})^{k-1}[(1 - e^{-\frac {kn} m})ln(1 - e^{-\frac {kn} m}) -e^{-\frac {kn} m}lne^{-\frac {kn} m}]\\ 可以写成 &= (1 - e^{-\frac {kn} m})^{k-1}(ylny - xlnx)的形式 \\ \end{aligned}$ $\begin{aligned}(1)首先讨论&(1 - e^{-\frac {kn} m})^{k-1}的符号：\\ 由最初assume&：kn < m可得：\frac {kn} m < 1 ∈(0，1) \\ -\frac {kn} m &∈(-1，0) \\ e^{-\frac {kn} m}&∈(e^{-1}，e^0)，即(e^{-1}，1) \\ 1 - e^{-\frac {kn} m}&∈(0，1-e^{-1})\\ (1 - e^{-\frac {kn} m})^{k-1} &> 0 \end{aligned}$ $\begin{aligned} (2)再讨论&（ylny - xlnx）的符号：\\ k < \frac m nln2时&：\\ \frac {kn} m &< ln2\\ -\frac {kn} m &> -ln2，即-\frac {kn} m > ln\frac 1 2\\ e^{-\frac {kn} m} &> e^{ln \frac 1 2}，即e^{-\frac {kn} m} > \frac1 2 ，即 x > \frac 1 2\\ 根据&x下图图像可得：ylny - xlnx <0\\ 此时&f'(k) < 0，f(k)递减↓\\ 同理，k > \frac m nln2时&：x>\frac1 2 ，ylny - xlnx >0，f'(k) > 0，f(k)递增↑ \end{aligned}$
在这里插入图片描述