Misra-Gries Algorithm——Data Stream Algorithm 学习笔记（一）

最新推荐文章于 2024-04-01 23:11:18 发布

十三言

最新推荐文章于 2024-04-01 23:11:18 发布

阅读量1.7k

点赞数 2

分类专栏：流算法文章标签：算法

本文链接：https://blog.csdn.net/karroyan/article/details/110818901

版权

流算法专栏收录该内容

1 篇文章

订阅专栏

Misra-Gries Algorithm——Data Stream Algorithm 学习笔记（一）

因为研究生课程学习到了这份讲义，故在此记录学习笔记，供大家一起讨论。

前言

首先说明本书研究的问题、算法目标、如何评估算法效果。

研究场景

本书的场景是大规模流输入的问题。假设输入是大小为 $m$ 的序列，序列中的每个元素是来自于 $1$ 到 $n$ 的集合。形式化定义如下：
$\sigma = \langle a_1, a_2, \dots, a_m\rangle$
$a_i\in[n] = \{1, 2, \dots, n\}$ .
以下的讨论都用 $m$ 表示输入序列的长度， $n$ 表示输入流中元素的范围。

需要研究的问题是，当输入 $m$ 和 $n$ 非常庞大，计算机难以存储时，如何用尽量小的空间 $s$ 来处理大规模输入流。我们希望 $s$ 至少是亚线性的，即： $o({\rm min}(m, n))$ 。最理想的状况是能达到对数空间大小，即 $O(\log m + \log n)$ 。通常的算法中，我们能够达到对数多项式空间大小，即 ${\rm polylog}(\min (m, n))$ 。其中 ${\rm polylog}(g(n))$ 是指，存在常数 $c > 0$ ，使得 $f(n) = O(\log (g(n))^c)$ 。

评估算法效果

定义 $\phi(\sigma)$ 为问题的真实值，由于真实值一般较难在亚线性空间中得到，我们转而寻找 $\phi(\sigma)$ 的近似值，记为 $\mathcal{A}(\sigma)$ 。我们希望 $\mathcal{A}(\sigma)$ 和 $\phi(\sigma)$ 尽可能接近，因此有下列定义。

称满足如下条件的 $\mathcal{A}(\sigma)$ 为 $(\varepsilon, \delta)$ -estimates:
$\Pr [\lvert\frac{\mathcal{A}(\sigma)}{\phi(\sigma)}\rvert-1] > \varepsilon \leq\delta$
在上式中，如果 $\phi(\sigma)$ 非常小，接近于零的时候，这个限制条件就会变得过于强了。因此定义满足如下条件的 $\mathcal{A}(\sigma)$ 为 $(\varepsilon, \delta)^+$ -estimates:
$\Pr[\lvert\mathcal{A}(\sigma) - \phi(\sigma)\rvert > \varepsilon]\leq \delta$

频率向量

通常，输入流也可以看作是多重集合，其中的元素可以重复出现。因此，常用频率向量 $\bm{f} = (f_1, f_2, \dots, f_n)$ 来表达 $\sigma$ 的特征，其中 $f_i$ 表示 $i$ 这个元素在输入流中出现的频数。
$f_i = \lvert{\{j:a_j = i\}}\rvert={\rm occurence\ of \ }i {\rm \ in\ }\sigma$

也就是说，每个输入流 $\sigma$ 都能定义一个 $\bm{f}$ 。同时， $\sigma$ 的每个输入都会在 $f_i$ 上加 $1$ ，因此 $\sigma$ 也可以看作是对 $\bm{f}$ 的更新，且所有频数相加应等于 $\sigma$ 的长度 $m$ 。
$\Vert\bm{f}\Vert_1 = \lvert f_1\rvert + \dots + \lvert f_n\rvert =m$

频繁项问题

频繁项就是数据流中出现频率最高的项。第一章中将介绍解决该问题的Misra-gries算法，并证明算法的正确性。

问题定义

回到我们前言中定义的问题场景，我们有一个数据流 $\sigma = \langle a_1, a_2, \dots, a_m\rangle$ ，其中每个元素 $a_i\in[n] = \{1, 2, \dots, n\}$ . $\sigma$ 定义了一个频率向量 $\bm{f} = (f_1, f_2, \dots, f_n)$ ，其中 $f_1 + f_2 + \dots + f_n = m$ .

在学习数据结构的时候，我们都遇到过Majority问题，即要求找到序列中出现频率大于 $\frac{m}{2}$ 的元素，如果有则输出该元素，没有则输出 $\bot$ .

这个问题可以延伸到Frequent问题，即给定 $k$ ，输出出现频数超过 $\frac{m}{k}$ 的元素 $\{j:f_j > \frac{m}{k}\}$ .

接下来介绍的Misra-gries算法，可以在输入流一次通过时解决Frequent问题，找到所有出现频数满足要求的元素。而输入流第二次通过时，可以进一步输出这些元素的频数 $f_i$ 。Misra-gries算法实际上是估计元素频数的算法，在输入流一次通过时能够计算 $\hat{f_a}$ ， $\hat{f_a}$ 是对 $f_a$ 的估计。

Misra-gries算法

Misra-gries算法可以通过设置参数 $k$ ，保存一个 $k - 1$ 大小的key-value数组，数组中始终保持当前频率最高的 $k - 1$ 个元素和对应的 $\hat{f_a}$ 。伪代码如下：
Misra-Gries算法伪代码
其中，line2-3表示，当 $j$ 已经存在于数组中时，让对应频数 $A [j]$ 加 $1$ 。line4-6表示，若数组中不存在元素 $j$ ，且数组中不足 $k - 1$ 个元素时，把 $j$ 加入数组，频数设为 $1$ 。line7-9表示，若数组中不存在元素 $j$ ，且有 $k - 1$ 个元素时，让所有元素的频数减一，若频数等于零，则移出数组。

Misra-gries算法分析

空间复杂度

如果用平衡二叉树存储key-value数组，其中key，也就是元素的值可以从 $[n]$ 中取，因此长度为 $\lceil \log n\rceil$ 。value，也就是频数，最大不超过 $m$ ，因此长度为 $\lceil \log n\rceil$ 。最多存储 $k - 1$ 个这样的key-value对。因此空间复杂度为 $O(k(\log m + \log n))$ 。

正确性分析

我们首先考虑一个和Misra-gries非常相近的算法。主要的区别是，这个算法的数组不仅记录元素对应的频数，还记录每次出现的位置，记为 $B [j]$ 。因此，原本算法中 $A [j] + 1$ 的操作就变为 $B[j]\cup i$ 。而 $A [j] - 1$ 的操作则变为从 $B [j]$ 中删除最早的位置。此外，为了方便说明，我们将数列更改为 $k$ 大小。算法伪代码如下：
在这里插入图片描述

当然，这样把所有位置都记录下来是非常耗费空间的，这只是用于检验Misra-gries算法效果。

由于 $A [j]$ 表示元素出现的频数， $B [j]$ 表示元素出现的位置集合，所以有 $\lvert B[j]\rvert$ 。且 $A [j]$ 中记录的频数 $\hat{f_a}$ 应小于等于元素真实出现的频数 $f_a$ ， $\hat{f_a}\leq f_a$ 。

输入流的位置不可能重复。因此每次在 $B$ 中删去位置时，必然删去了 $k$ 个不同的位置。由于总位置最多 $m$ 个，最多进行 $\frac{m}{k}$ 轮删除。由于每次删除对任一元素只删除一个位置，因此 $\hat{f_a}\geq f_a - \frac{m}{k}$ ，则有：
$f_j - \frac{m}{k}\leq\hat{f_j}\leq f_j$

也就是说，只要 $f_j >\frac{m}{k}$ ，则最终 $A [j]$ 必然为正， $j$ 将会保存在数组中。

算法延伸

由算法分析可知，Misra-gries算法可以在输入流一次输入后，找到出现频数超过 $\frac{m}{k}$ 的元素。如果要找到这些元素准确的频数 $f_a$ ，只需要再经过一遍输入流，用 $k$ 大小的数组记录每个原色的频数即可。

参考文献

DartMouth CS35/135课程讲义 Data Stream Algorithm